<a href="https://colab.research.google.com/github/educacion-digital-ar/inclusion-educativa-digital/blob/main/Documentacion/limpieza.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# TERCERA EVIDENCIA – Limpieza, Análisis y Visualización de Datos
### Integrantes del equipo:
-

## Datos en Burto.

In [None]:
import pandas as pd
from IPython.display import Markdown, display

sheet_id = '1Qa5X6_s5zTJIFG6y9yaMngnWy01OKwOY'
sheet_name = 'Hoja1'

url = f'https://docs.google.com/spreadsheets/d/{sheet_id}/gviz/tq?tqx=out:csv&sheet={sheet_name}'

df = pd.read_csv(url)
display(Markdown("### Vista previa del DataFrame"))
display(df.head())

display(Markdown("### Información general"))
df.info()

display(Markdown("### Estadísticas de columnas numéricas"))
df.describe()



### Vista previa del DataFrame

Unnamed: 0,nombreUniversidad,sector,provincia,nombreCarrera,areaConocimiento,nivel,modalidad,duracionAnios,cantidadCarrerasVirtuales,cantidadAreas,...,Unnamed: 16,Unnamed: 17,Unnamed: 18,Unnamed: 19,Unnamed: 20,Unnamed: 21,Unnamed: 22,Unnamed: 23,Unnamed: 24,Unnamed: 25
0,Universidad Cátolica de la Plata,Privada,Buenos Aires,Lic. en Ciencias de la Educación a Distancia,Humanidades,Grado,Distancia,4,19,4.0,...,,,,,,,,,,
1,Universidad Cátolica de la Plata,Privada,Buenos Aires,Lic. en Filosofía,Humanidades,Grado,Distancia,4,19,4.0,...,,,,,,,,,,
2,Universidad Cátolica de la Plata,Privada,Buenos Aires,Ciclo de Lic. en Educación Física,Humanidades,Grado complementario,Distancia,3 cuatrimestres,19,4.0,...,,,,,,,,,,
3,Universidad Cátolica de la Plata,Privada,Buenos Aires,Ciclo de Lic. en Ciencias de la Educación,Humanidades,Grado complementario,Distancia,2,19,4.0,...,,,,,,,,,,
4,Universidad Cátolica de la Plata,Privada,Buenos Aires,Ciclo de Lic. en Filosofía a Distancia,Humanidades,Grado complementario,Distancia,2,19,4.0,...,,,,,,,,,,


### Información general

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 924 entries, 0 to 923
Data columns (total 26 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   nombreUniversidad          924 non-null    object 
 1   sector                     924 non-null    object 
 2   provincia                  924 non-null    object 
 3   nombreCarrera              924 non-null    object 
 4   areaConocimiento           924 non-null    object 
 5   nivel                      920 non-null    object 
 6   modalidad                  923 non-null    object 
 7   duracionAnios              920 non-null    object 
 8   cantidadCarrerasVirtuales  913 non-null    object 
 9   cantidadAreas              912 non-null    float64
 10  porcentajeOfertaVirtual    640 non-null    object 
 11  observaciones              22 non-null     object 
 12  Unnamed: 12                0 non-null      float64
 13  Unnamed: 13                0 non-null      float64

### Estadísticas de columnas numéricas

Unnamed: 0,cantidadAreas,Unnamed: 12,Unnamed: 13,Unnamed: 14,Unnamed: 15,Unnamed: 16,Unnamed: 17,Unnamed: 18,Unnamed: 19,Unnamed: 20,Unnamed: 21,Unnamed: 22,Unnamed: 23,Unnamed: 24,Unnamed: 25
count,912.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
mean,7.245614,,,,,,,,,,,,,,
std,2.693853,,,,,,,,,,,,,,
min,1.0,,,,,,,,,,,,,,
25%,5.0,,,,,,,,,,,,,,
50%,8.0,,,,,,,,,,,,,,
75%,10.0,,,,,,,,,,,,,,
max,11.0,,,,,,,,,,,,,,


## 1. Contextualización de la limpieza de datos


# Limpieza de Datos

Tras un análisis exploratorio inicial del dataset, se identificaron varias inconsistencias y variables que requieren limpieza para garantizar la confiabilidad del análisis. A continuación, se detallan los principales problemas detectados y las acciones que se tomarán para resolverlos:

- **Columnas vacías:** Se identificaron 11 columnas completamente vacías. Estas serán eliminadas por no aportar información relevante al estudio.
  
- **Variable `duracionAnios`:** Presenta formatos inconsistentes. Será normalizada y convertida en una nueva variable llamada `duracionMeses`, con valores numéricos homogéneos expresados en meses.

- **Columnas irrelevantes:** Las variables `observaciones` y `porcentajeOfertaVirtual` no aportan valor significativo al análisis, por lo tanto, serán excluidas.

- **Filtrado por modalidad:** Solo se conservarán los registros cuya modalidad sea "Virtual" o "Combinada", ya que los demás no se alinean con el enfoque de esta investigación.

- **Variable `areaConocimiento`:** Se realizará una normalización agrupando las categorías similares bajo una misma etiqueta, con el objetivo de simplificar y mejorar la calidad del análisis posterior.

Cada uno de estos puntos será abordado con ejemplos específicos en las siguientes celdas, documentando tanto el problema como la solución aplicada mediante código en Pandas.




## 2. Limpieza de Datos con Pandas



# Documentación para la Normalización de la Columna `duracionAnios`

En esta sección se describen las reglas y procedimientos para convertir la columna `duracionAnios` en una unidad de medida uniforme: **meses**. Se manejan múltiples formatos y expresiones, incluyendo valores numéricos, fracciones textuales y unidades variadas.


## 1. Valores Numéricos (Años)

* **Ejemplos:** `1`, `2`, `4`, `5`, `6`, `1.5`, `2,5`, `4.5`, etc.  
* **Regla:** Convertir años a meses multiplicando por 12.  
* **Nota:** Reemplazar comas por puntos antes de la conversión para evitar errores.  

```python
meses = float(valor.replace(',', '.')) * 12
```

## 2. Valores en Cuatrimestres
* **Ejemplos:** 3 cuatrimestres, 5 cuatrimestres, 4 cuatrimestres
* **Regla:** Multiplicar el número de cuatrimestres por 4 meses.

```python
meses = cuatrimestres * 4
```

## 3. Valores en Trimestres
* **Ejemplo:** 5 trimestres
* **Regla:** Multiplicar el número de trimestres por 3 meses.

```python
meses = trimestres * 3
```

## 4. Valores en Semestres
* **Ejemplo:** 4 semestres

* **Regla:** Multiplicar el número de semestres por 6 meses.

```python
meses = semestres * 6
```

## 5. Valores en Meses
* **Ejemplos:** 9 meses, 8 MESES, 4 MESES, 4 meses
* **Regla:** Extraer el valor numérico y conservarlo tal cual, normalizando el formato a número.

## 6. Fracciones Textuales
**Ejemplos y reglas:**

* "2 y medio" → 2.5 * 12 = 30 meses
* "1 y medio" → 1.5 * 12 = 18 meses
* "2 y un cuatrimestre" → (2 * 12) + 4 = 28 meses
* "1 y un mes" → (1 * 12) + 1 = 13 meses

**Nota:** *Sumar las partes según su equivalencia en meses, combinando años y unidades parciales.*

## 7. Casos Especiales y Ambigüedades
* Valores como 3-may, 1-mar, etc., suelen ser errores de OCR o importación.

  **Acción recomendada:** Marcar como NaN o estimar un valor aproximado si el contexto lo permite (ejemplo: 3-may → 3.5 años).

* Valores no numéricos o irrelevantes como variable, -, 0,01 deben ser eliminados o marcados como NaN.

##8. Días y Semanas
Convertir días y semanas a meses utilizando aproximaciones.

**Ejemplos:**
* 1 día ≈ 0.033 meses (1/30)
* 2 días ≈ 0.066 meses
* 33 semanas ≈ 7.6 meses (33 * 7 / 30.44)

**Nota:** *La precisión puede ajustarse según el nivel requerido; se recomienda mantener decimales para mayor exactitud.*

## Resumen
El objetivo es obtener una columna `duracionMeses` homogénea, que facilite el análisis estadístico y comparativo. Los valores ambiguos deben tratarse con cuidado, priorizando la limpieza y consistencia de los datos.



In [2]:
import re
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

sheet_id = '1Qa5X6_s5zTJIFG6y9yaMngnWy01OKwOY'
sheet_name = 'Hoja1'
url = f'https://docs.google.com/spreadsheets/d/{sheet_id}/gviz/tq?tqx=out:csv&sheet={sheet_name}'

df = pd.read_csv(url, dtype=str)

# Limpiar valores nulos o no útiles antes de convertir
df = df[~df["duracionAnios"].isin(["variable", "-", "", None])].copy()

def convertir_a_meses(valor):
    if valor is None:
        return np.nan

    valor = str(valor).lower().strip()
    valor = re.sub(r'[^\w\s,.]', '', valor)
    valor = valor.replace(',', '.')

    if valor in ['nan', '', 'variable', '-']:
        return np.nan

    match = re.search(r'(\d+(\.\d+)?)', valor)
    if not match:
        return np.nan
    numero = float(match.group(1))

    if 'cuatrimestre' in valor:
        return numero * 4
    if 'trimestre' in valor:
        return numero * 3
    if 'semestre' in valor:
        return numero * 6
    if 'mes' in valor:
        return numero
    if 'semana' in valor:
        return numero * 7 / 30
    if 'dia' in valor:
        return numero / 30
    if 'año' in valor or 'ano' in valor:
        if 'y medio' in valor:
            numero += 0.5
        elif 'y un mes' in valor:
            numero += 1/12
        elif 'y un cuatrimestre' in valor:
            numero += 4/12
        return numero * 12

    return numero * 12  # Por defecto, años

# Aplicar la conversión
df["duracion_meses"] = df["duracionAnios"].apply(convertir_a_meses)

# Mostrar valores no convertidos
print("Valores no convertidos:")
print(df[df["duracion_meses"].isna()]["duracionAnios"].value_counts())

# Filtrar y copiar los válidos
df_validos = df[df["duracion_meses"].notna()].copy()

# Clasificación por duración
def clasificar_duracion(meses):
    if meses < 12:
        return "Corta (menos de 1 año)"
    elif meses <= 36:
        return "Media (1 a 3 años)"
    else:
        return "Larga (más de 3 años)"

df_validos["categoria_duracion"] = df_validos["duracion_meses"].apply(clasificar_duracion)

# Estadísticas finales
print("\nEstadísticas de duración en meses:")
print(df_validos["duracion_meses"].describe())

print("\nDistribución por categoría:")
print(df_validos["categoria_duracion"].value_counts())

# Guardar CSV limpio
df_validos.to_csv("carreras_limpias_con_duracion.csv", index=False)



Valores no convertidos:
Series([], Name: count, dtype: int64)

Estadísticas de duración en meses:
count    917.000000
mean      31.044587
std       19.983604
min        0.033333
25%       12.000000
50%       30.000000
75%       48.000000
max       72.000000
Name: duracion_meses, dtype: float64

Distribución por categoría:
categoria_duracion
Media (1 a 3 años)        370
Larga (más de 3 años)     346
Corta (menos de 1 año)    201
Name: count, dtype: int64


## Conversión de Duración de Carreras a Meses

### Función `convertir_a_meses`
Se diseñó una función personalizada en Python que:

- Limpia los textos (elimina caracteres especiales).
- Normaliza los valores decimales (usa punto como separador).
- Extrae el valor numérico principal.
- Detecta la unidad de tiempo (años, semestres, cuatrimestres, etc.).
- Realiza la conversión del valor a meses.

```
  df["duracion_meses"] = df["duracionAnios"].apply(convertir_a_meses)
````

---

### 📉 Resultados de la Conversión

* **Total de registros válidos**: 917
* **Valores no convertibles**: 0 (¡Todos los valores fueron convertidos correctamente!)
* **Valores extremos**: Se detectaron algunos registros con duraciones extremadamente bajas (ej. 0.03 meses), que se recomienda revisar.

---

### 📊 Estadísticas Descriptivas de la Duración (en Meses)

| Métrica      | Valor |
| ------------ | ----- |
| Recuento     | 917   |
| Media        | 31.04 |
| Desvío Std   | 19.99 |
| Mínimo       | 0.03  |
| Percentil 25 | 12.00 |
| Mediana      | 30.00 |
| Percentil 75 | 48.00 |
| Máximo       | 72.00 |

---

### 🗃️ Clasificación por Tipo de Duración

Se definieron tres categorías de duración para facilitar el análisis:

* **Corta**: menos de 12 meses
* **Media**: entre 12 y 36 meses
* **Larga**: más de 36 meses

Distribución por categoría:

| Categoría              | Total |
| ---------------------- | ----- |
| Media (1 a 3 años)     | 370   |
| Larga (más de 3 años)  | 346   |
| Corta (menos de 1 año) | 201   |

---

### 🔍 Análisis e Implicaciones

* La mayoría de las carreras se encuentran en la categoría **media**, lo cual es coherente con carreras técnicas o diplomaturas.
* Los valores muy bajos (menores a un mes) podrían indicar errores de carga o casos atípicos, y deberían ser revisados.
* La categoría **larga** representa más de un tercio del total, lo cual podría reflejar carreras universitarias completas.
* La normalización de la duración permite **comparaciones claras** entre programas educativos diversos.

---

### Siguientes Pasos

1. **Revisión y limpieza adicional**

   * Validar registros con duración < 1 mes.
   * Confirmar si los valores extremadamente bajos son errores o casos reales.

2. **Análisis multivariado**

   * Explorar relaciones entre duración y otras variables como:

     * Tipo de carrera
     * Institución
     * Modalidad (virtual/presencial)

3. **Visualización**

   * Crear histogramas y boxplots para representar la distribución y detectar outliers.

4. **Segmentación**

   * Utilizar las categorías de duración para agrupar y analizar características diferenciales en el dataset.

5. **Documentación**

   * Incluir esta función y análisis en notebooks con comentarios explicativos, gráficos y resultados destacados.

## 🔍 Limpieza adicional de valores extremos

## Limpieza de Registros con Duración Extremadamente Baja

### Contexto
Durante el análisis de la columna `duracionAnios`, se identificaron varios registros con valores de duración inferiores a un mes, algunos incluso con duraciones reportadas como "1 día" o valores muy bajos como "0,01".

Tras una revisión cuidadosa, se determinó que estos registros representan:
- Cursos muy cortos o eventos puntuales (duración real menor a un mes).
- Registros duplicados o erróneos que no aportan valor para el análisis general.

### Acción Realizada
Para asegurar la calidad y coherencia del dataset, se procedió a:

1. **Eliminación de registros con duración menor a un mes**, correspondientes a:
   - Cursos o capacitaciones de 1 día.
   - Registros duplicados detectados con duraciones irrealistas.
   
2. **Corrección manual de registros con errores**, por ejemplo:
   - El registro con duración "2 DIAS" fue corregido a su valor real de "8 meses" basándose en la información oficial de la universidad.

3. **Verificación posterior** para garantizar que no quedaran registros con duraciones inferiores a un mes en el dataset final.

### Justificación
Mantener registros con duraciones tan bajas distorsionaría el análisis estadístico y la interpretación de la duración típica de las carreras, afectando la calidad del proyecto.

### Resultado
El dataset limpio no contiene registros con duraciones inferiores a un mes, garantizando un análisis más preciso y relevante.


> **Nota:** Las correcciones manuales se realizaron consultando fuentes oficiales para preservar la ética y la precisión en el manejo de los datos.


# Generación del nuevo Dataset Limpio con su csv


In [3]:
import re
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

sheet_id = '1Qa5X6_s5zTJIFG6y9yaMngnWy01OKwOY'
sheet_name = 'Hoja1'
url = f'https://docs.google.com/spreadsheets/d/{sheet_id}/gviz/tq?tqx=out:csv&sheet={sheet_name}'

df = pd.read_csv(url, dtype=str)

# Limpiar valores nulos o no útiles antes de convertir
df = df[~df["duracionAnios"].isin(["variable", "-", "", None])].copy()

def convertir_a_meses(valor):
    if valor is None:
        return np.nan

    valor = str(valor).lower().strip()
    valor = re.sub(r'[^\w\s,.]', '', valor)
    valor = valor.replace(',', '.')

    if valor in ['nan', '', 'variable', '-']:
        return np.nan

    match = re.search(r'(\d+(\.\d+)?)', valor)
    if not match:
        return np.nan
    numero = float(match.group(1))

    if 'cuatrimestre' in valor:
        return numero * 4
    if 'trimestre' in valor:
        return numero * 3
    if 'semestre' in valor:
        return numero * 6
    if 'mes' in valor:
        return numero
    if 'semana' in valor:
        return numero * 7 / 30
    if 'dia' in valor:
        return numero / 30
    if 'año' in valor or 'ano' in valor:
        if 'y medio' in valor:
            numero += 0.5
        elif 'y un mes' in valor:
            numero += 1/12
        elif 'y un cuatrimestre' in valor:
            numero += 4/12
        return numero * 12

    return numero * 12  # Por defecto, años


# Aplicar la conversión
df["duracion_meses"] = df["duracionAnios"].apply(convertir_a_meses)
# Eliminar registros con duración < 1 mes
df = df[df["duracion_meses"] >= 1]

# Confirmar que ya no haya duraciones < 1 mes
print("📌 Registros con duración < 1 mes tras limpieza definitiva:")
print(df[df["duracion_meses"] < 1][["nombreCarrera", "duracionAnios", "duracion_meses"]])
# Mostrar valores no convertidos
print("Valores no convertidos:")
print(df[df["duracion_meses"].isna()]["duracionAnios"].value_counts())

# Filtrar y copiar los válidos
df_validos = df[df["duracion_meses"].notna()].copy()

# Clasificación por duración
def clasificar_duracion(meses):
    if meses < 12:
        return "Corta (menos de 1 año)"
    elif meses <= 36:
        return "Media (1 a 3 años)"
    else:
        return "Larga (más de 3 años)"

df_validos["categoria_duracion"] = df_validos["duracion_meses"].apply(clasificar_duracion)

# Estadísticas finales
print("\nEstadísticas de duración en meses:")
print(df_validos["duracion_meses"].describe())

print("\nDistribución por categoría:")
print(df_validos["categoria_duracion"].value_counts())

# Guardar CSV limpio
df_validos.to_csv("DatasetNormalizado.csv", index=False)



📌 Registros con duración < 1 mes tras limpieza definitiva:
Empty DataFrame
Columns: [nombreCarrera, duracionAnios, duracion_meses]
Index: []
Valores no convertidos:
Series([], Name: count, dtype: int64)

Estadísticas de duración en meses:
count    914.000000
mean      31.146280
std       19.937205
min        1.000000
25%       12.000000
50%       30.000000
75%       48.000000
max       72.000000
Name: duracion_meses, dtype: float64

Distribución por categoría:
categoria_duracion
Media (1 a 3 años)        370
Larga (más de 3 años)     346
Corta (menos de 1 año)    198
Name: count, dtype: int64



# Normalización de la Variable `areaConocimiento`

## Introducción
La columna `areaConocimiento` presenta múltiples variantes y nomenclaturas inconsistentes para áreas similares, lo que dificulta la interpretación y el análisis estadístico posterior.

La normalización consiste en agrupar estas categorías bajo etiquetas estándar y homogéneas, con el objetivo de mejorar la calidad y confiabilidad de los resultados.

## Metodología

1. **Carga del dataset**

   El archivo con los datos originales se carga desde un archivo CSV ubicado en el entorno de trabajo. Esta base contiene la columna `areaConocimiento` con los valores sin normalizar.

2. **Definición del mapeo**

   Se creó un diccionario de mapeo (`mapeo_areas`) donde se asignan las diferentes variantes textuales a categorías normalizadas. Por ejemplo, términos como "MEDICINA Y CIENCIAS DE LA SALUD", "Médicas" y "Facultad de Medicina" se unifican bajo la categoría estándar `"Salud"`.

3. **Aplicación del mapeo**

   A través del método `.map()` de pandas, cada valor en `areaConocimiento` es reemplazado por su categoría normalizada según el diccionario. Los valores no contemplados en el diccionario reciben la etiqueta `"Otros/No Clasificados"` para asegurar que no queden valores nulos y facilitar el manejo de datos atípicos o no categorizados.

4. **Validación**

   Se realiza un conteo de frecuencia de la nueva columna `areaConocimiento_normalizada` para verificar la correcta asignación y distribución de las categorías.

5. **Exportación**

   Finalmente, el dataset con la variable normalizada se guarda en un nuevo archivo CSV para su uso en análisis posteriores o modelos predictivos.

---

## Beneficios de la Normalización

* **Uniformidad:** Elimina variantes y errores tipográficos que podrían distorsionar análisis estadísticos.
* **Claridad:** Facilita la interpretación y visualización de resultados, agrupando conceptos afines.
* **Automatización:** Reduce la necesidad de intervención manual en etapas futuras del proyecto.
* **Robustez:** Permite manejar valores inesperados sin afectar la integridad del dataset.

In [30]:
import pandas as pd

# Cargar el archivo CSV
df = pd.read_csv("/content/DatasetNormalizado.csv")

# Paso 1: Diccionario de mapeo
mapeo_areas = {
    # Ciencias Sociales y Humanas
    'Humanidades': 'Ciencias Sociales y Humanas',
    'Ciencias Sociales': 'Ciencias Sociales y Humanas',
    'Facultad de Ciencias Sociales': 'Ciencias Sociales y Humanas',
    'Ciencias Sociales y Humanas': 'Ciencias Sociales y Humanas',
    'Jurídicas y Sociales': 'Ciencias Sociales y Humanas',
    'Departamento de Ciencias Jurídicas, Políticas y Sociales': 'Ciencias Sociales y Humanas',
    'DERECHO Y CIENCIAS SOCIALES': 'Ciencias Sociales y Humanas',
    'ciencias-sociales-y-humanas': 'Ciencias Sociales y Humanas',
    'Psiclogia y Relaciones Humanas': 'Ciencias Sociales y Humanas',

    # Ciencias de la Salud
    'Ciencias de la Salud': 'Ciencias de la Salud',
    'Ciencias de la salud': 'Ciencias de la Salud',
    'Ciencia de la salud': 'Ciencias de la Salud',
    'Médicas': 'Ciencias de la Salud',
    'SALUD': 'Ciencias de la Salud',
    'Facultad de Medicina': 'Ciencias de la Salud',
    'Facultad de Odontología': 'Ciencias de la Salud',
    'MEDICINA Y CIENCIAS DE LA SALUD': 'Ciencias de la Salud',
    'FACULTAD DE MEDICINA': 'Ciencias de la Salud',
    'FACULTADDE SALUD Y TRABAJO SOCIAL': 'Ciencias de la Salud',

    # Ingeniería y Tecnología
    'Ingeniería y Tecnología': 'Ingeniería y Tecnología',
    'Facultad de Ingeniería': 'Ingeniería y Tecnología',
    'Escuela Universitaria de Sistemas': 'Ingeniería y Tecnología',
    'TECNOLOGÍA INFORMÁTICA': 'Ingeniería y Tecnología',
    'INGIENERIA Y SISTEMAS': 'Ingeniería y Tecnología',

    # Ciencias Económicas y Administración
    'Cs. Económicas y Sociales': 'Ciencias Económicas y Administración',
    'Económicas': 'Ciencias Económicas y Administración',
    'Facultad de Negocios': 'Ciencias Económicas y Administración',
    'CIENCIAS ECONOMICAS': 'Ciencias Económicas y Administración',
    'Economía y Administración': 'Ciencias Económicas y Administración',
    'MANAGEMENT Y FINANZAS': 'Ciencias Económicas y Administración',
    'Ciencias-Económicas-Empresariales': 'Ciencias Económicas y Administración',
    'Facultad de Ciencias Económicas': 'Ciencias Económicas y Administración',
    'Facultad de Ciencias Económica': 'Ciencias Económicas y Administración',
    'FACULTAD DE CIENCIAS SOCIALES Y ECONOMICAS': 'Ciencias Económicas y Administración',

    # Derecho y Ciencias Políticas
    'Derecho y Ciencias Políticas': 'Derecho y Ciencias Políticas',
    'Facultad de Derecho': 'Derecho y Ciencias Políticas',
    'Ciencias-Juridicas': 'Derecho y Ciencias Políticas',
    'Facultad de Derecho y Ciencias Sociales y Políticas': 'Derecho y Ciencias Políticas',
    'FACULTAD DE DERECHO': 'Derecho y Ciencias Políticas',

    # Diseño, Arte y Comunicación
    'Facultad de Diseño y Comunicación': 'Diseño, Arte y Comunicación',
    'DISEÑO Y COMUNICACIÓN': 'Diseño, Arte y Comunicación',
    'Facultad de Artes, Diseño y Ciencias de la Cultura': 'Diseño, Arte y Comunicación',
    'Ciencia de la comunicación': 'Diseño, Arte y Comunicación',
    'Ciencias de la Comunicación': 'Diseño, Arte y Comunicación',

    # Educación y Psicología
    'Lenguas': 'Educación y Psicología',
    'CIENCIAS DE LA EDUCACIÓN Y PSICOPEDAGOGÍA': 'Educación y Psicología',
    'EDUCACION Y PSICOLOGIA': 'Educación y Psicología',
    'Facultad de Psicología': 'Educación y Psicología',
    'FACULTAD DE HUMANIDADES': 'Educación y Psicología',
    'Facultad de Humanidades': 'Educación y Psicología',

    # Ciencias Exactas y Naturales
    'Ciencias Exactas, Físico-Químicas y Naturales': 'Ciencias Exactas y Naturales',
    'FACULTAD DE CIENCIAS EXACTAS Y NATURALES': 'Ciencias Exactas y Naturales',
    'Facultad de Ciencias Exactas y Naturales y Agrimensura': 'Ciencias Exactas y Naturales',

    # Turismo y Hospitalidad
    'TURISMO Y HOSPITALIDAD': 'Turismo y Hospitalidad',
    'TURISMO Y HOTELERIA': 'Turismo y Hospitalidad',
    'Escuela de la Hospitalidad': 'Turismo y Hospitalidad',

    # Agro y Sustentabilidad
    'Ciencias Agropecuarias': 'Agro y Sustentabilidad',
    'Facultad de Ciencias Agrarias': 'Agro y Sustentabilidad',
    'Facultad de Agronomía y Veterinaria': 'Agro y Sustentabilidad',
    'Facultad de Ciencias Veterinarias': 'Agro y Sustentabilidad',
    'SUSTENTABILIDAD Y AGRO': 'Agro y Sustentabilidad',

    # Otros
    'Política y Gobierno': 'Otros/No Clasificados',
    'Hábitat y Sostenibilidad': 'Otros/No Clasificados',
    'A TRAVÉS DE LA VICERRECTORÍA DE INVESTIGACIÓN': 'Otros/No Clasificados',
    'Facultad de Arquitectura': 'Otros/No Clasificados',
    'Facultad de Arquitectura,': 'Otros/No Clasificados',
    'Facultad de Arquitectura y Urbanismo': 'Otros/No Clasificados',
    'Facultad de Ciencias Agrarias': 'Otros/No Clasificados',
    'Instituto de Ciencias Criminalísticas y Criminología': 'Otros/No Clasificados',
    'MOTRICIDAD HUMANA Y DEPORTES': 'Otros/No Clasificados',
    'Ciencia y Tecnología': 'Otros/No Clasificados',
}

nuevos_valores = {
    'Educación': 'Educación y Psicología',
    'Comunicación': 'Diseño, Arte y Comunicación',
    'Ingeniería': 'Ingeniería y Tecnología',
    'Informática': 'Ingeniería y Tecnología',
    'Ciencias Económicas': 'Ciencias Económicas y Administración',
    'Arquitectura': 'Otros/No Clasificados',
    'Artes': 'Diseño, Arte y Comunicación',
}

mapeo_areas.update(nuevos_valores)


# Paso 2: Crear columna nueva con la normalización
df['areaConocimiento_normalizada'] = df['areaConocimiento'].map(mapeo_areas)

# Paso 3 (opcional): Verificar si hay valores sin mapear
valores_no_mapeados = df[df['areaConocimiento_normalizada'].isna()]['areaConocimiento'].unique()
print("Valores sin normalizar:", valores_no_mapeados)
df.to_csv("DatasetNormalizado_2.csv", index=False)


Valores sin normalizar: []


# NOTA PARA EL EQUIPO, A PARTIR DE AQUÍ, PARA EL CÓDIGO QUE PROGRAMEN DEBERÁN TRABAJAR CON EL ARCHIVO GENERADO QUE SE ENCUENTRA EN LA SIGUIENTE RUTA:
/content/DatasetLimpio.csv


## PARA NICO: Ya hice la normalización de las variables areaConocimiento y duracionAnios. Lo que te queda por hacer:

* Columnas vacías: Eliminar las columnas vacías.

* Variable duracionAnios: Borrar `duracionAnios` del Dataset, ya que ha quedado obsoleta, porque ahora se utiliza `duracionMeses`--------ya esta

* Columnas irrelevantes: Eliminar las columnas `observaciones` y `porcentajeOfertaVirtual`. --------ya esta


* Variable areaConocimiento: Eliminar la columna `áreaConocimiento` y renombrar la nueva columna `áreaConocimientoNormalizada` al nombre original `áreaConocimiento` --------ya esta


A mí todavía me queda limpiar esta:
* Filtrado por modalidad: Solo se conservarán los registros cuya modalidad sea "Virtual" o "Combinada", ya que los demás no se alinean con el enfoque de esta investigación.


# Eliminar columnas vacias



1.   Tu código está muy bien estructurado y hace lo siguiente:

2. Carga un CSV.

3. Detecta columnas con más de un valor nulo.

4. Elimina un rango de columnas por nombre.

5. Verificamos que las columnas se hayan borrado.





In [53]:
import pandas as pd

# Cargar el archivo CSV
df = pd.read_csv("/content/DatasetNormalizado_2.csv")

#Columnas con mas de un valor nulos
columnsNull=df.isnull().sum()[df.isnull().sum() > 1]
print("Antes:")
print(columnsNull)

# Paso 1: obtener la lista de nombres de columnas
columnas = df.columns

# Paso 2: rango de las columnas con valores nullos

inicio = columnas.get_loc('porcentajeOfertaVirtual')
fin = columnas.get_loc('Unnamed: 25')

# Paso 3: borrar ese rango

df.drop(df.columns[inicio:fin+1],axis=1,inplace=True)


#Columnas con mas de un valor nulos
columnsNull=df.isnull().sum()[df.isnull().sum() > 1]
print("Despues:")
print(columnsNull)

df.to_csv("DatasetLimpio.csv", index=False)
print("Archivo guardado como DatasetLimpio.csv")

display(df.head())


Antes:
nivel                          3
cantidadCarrerasVirtuales     11
cantidadAreas                 11
porcentajeOfertaVirtual      278
observaciones                896
Unnamed: 12                  914
Unnamed: 13                  914
Unnamed: 14                  914
Unnamed: 15                  914
Unnamed: 16                  914
Unnamed: 17                  914
Unnamed: 18                  914
Unnamed: 19                  914
Unnamed: 20                  914
Unnamed: 21                  914
Unnamed: 22                  914
Unnamed: 23                  914
Unnamed: 24                  914
Unnamed: 25                  914
dtype: int64
Despues:
nivel                         3
cantidadCarrerasVirtuales    11
cantidadAreas                11
dtype: int64
Archivo guardado como DatasetLimpio.csv


Unnamed: 0,nombreUniversidad,sector,provincia,nombreCarrera,areaConocimiento,nivel,modalidad,duracionAnios,cantidadCarrerasVirtuales,cantidadAreas,duracion_meses,categoria_duracion,areaConocimiento_normalizada
0,Universidad Cátolica de la Plata,Privada,Buenos Aires,Lic. en Ciencias de la Educación a Distancia,Humanidades,Grado,Distancia,4,19,4.0,48.0,Larga (más de 3 años),Ciencias Sociales y Humanas
1,Universidad Cátolica de la Plata,Privada,Buenos Aires,Lic. en Filosofía,Humanidades,Grado,Distancia,4,19,4.0,48.0,Larga (más de 3 años),Ciencias Sociales y Humanas
2,Universidad Cátolica de la Plata,Privada,Buenos Aires,Ciclo de Lic. en Educación Física,Humanidades,Grado complementario,Distancia,3 cuatrimestres,19,4.0,12.0,Media (1 a 3 años),Ciencias Sociales y Humanas
3,Universidad Cátolica de la Plata,Privada,Buenos Aires,Ciclo de Lic. en Ciencias de la Educación,Humanidades,Grado complementario,Distancia,2,19,4.0,24.0,Media (1 a 3 años),Ciencias Sociales y Humanas
4,Universidad Cátolica de la Plata,Privada,Buenos Aires,Ciclo de Lic. en Filosofía a Distancia,Humanidades,Grado complementario,Distancia,2,19,4.0,24.0,Media (1 a 3 años),Ciencias Sociales y Humanas


# Variable duracionAnios: Borrar duracionAnios del Dataset, ya que ha quedado obsoleta, porque ahora se utiliza duracionMeses

In [54]:
import pandas as pd

# Cargar el archivo CSV
df = pd.read_csv("/content/DatasetLimpio.csv")

df.drop(columns=['duracionAnios'],inplace=True)

df.to_csv("/content/DatasetLimpio.csv", index=False)

print("DatasetLimpio.csv actualizado")

display(df.head())

DatasetLimpio actualizado.csv


Unnamed: 0,nombreUniversidad,sector,provincia,nombreCarrera,areaConocimiento,nivel,modalidad,cantidadCarrerasVirtuales,cantidadAreas,duracion_meses,categoria_duracion,areaConocimiento_normalizada
0,Universidad Cátolica de la Plata,Privada,Buenos Aires,Lic. en Ciencias de la Educación a Distancia,Humanidades,Grado,Distancia,19,4.0,48.0,Larga (más de 3 años),Ciencias Sociales y Humanas
1,Universidad Cátolica de la Plata,Privada,Buenos Aires,Lic. en Filosofía,Humanidades,Grado,Distancia,19,4.0,48.0,Larga (más de 3 años),Ciencias Sociales y Humanas
2,Universidad Cátolica de la Plata,Privada,Buenos Aires,Ciclo de Lic. en Educación Física,Humanidades,Grado complementario,Distancia,19,4.0,12.0,Media (1 a 3 años),Ciencias Sociales y Humanas
3,Universidad Cátolica de la Plata,Privada,Buenos Aires,Ciclo de Lic. en Ciencias de la Educación,Humanidades,Grado complementario,Distancia,19,4.0,24.0,Media (1 a 3 años),Ciencias Sociales y Humanas
4,Universidad Cátolica de la Plata,Privada,Buenos Aires,Ciclo de Lic. en Filosofía a Distancia,Humanidades,Grado complementario,Distancia,19,4.0,24.0,Media (1 a 3 años),Ciencias Sociales y Humanas


# Variable areaConocimiento: Eliminar la columna áreaConocimiento y renombrar la nueva columna áreaConocimientoNormalizada al nombre original áreaConocimiento

In [55]:
import pandas as pd

# Cargar el archivo CSV
df = pd.read_csv("/content/DatasetLimpio.csv")

df.drop(columns=['areaConocimiento'],inplace=True)

df.rename(columns={
    'areaConocimiento_normalizada': 'areaConocimiento'
}, inplace=True)


df.to_csv("/content/DatasetLimpio.csv", index=False)
print("DatasetLimpio.csv actualizado")
display(df.head())


DatasetLimpio actualizado.csv


Unnamed: 0,nombreUniversidad,sector,provincia,nombreCarrera,nivel,modalidad,cantidadCarrerasVirtuales,cantidadAreas,duracion_meses,categoria_duracion,areaConocimiento
0,Universidad Cátolica de la Plata,Privada,Buenos Aires,Lic. en Ciencias de la Educación a Distancia,Grado,Distancia,19,4.0,48.0,Larga (más de 3 años),Ciencias Sociales y Humanas
1,Universidad Cátolica de la Plata,Privada,Buenos Aires,Lic. en Filosofía,Grado,Distancia,19,4.0,48.0,Larga (más de 3 años),Ciencias Sociales y Humanas
2,Universidad Cátolica de la Plata,Privada,Buenos Aires,Ciclo de Lic. en Educación Física,Grado complementario,Distancia,19,4.0,12.0,Media (1 a 3 años),Ciencias Sociales y Humanas
3,Universidad Cátolica de la Plata,Privada,Buenos Aires,Ciclo de Lic. en Ciencias de la Educación,Grado complementario,Distancia,19,4.0,24.0,Media (1 a 3 años),Ciencias Sociales y Humanas
4,Universidad Cátolica de la Plata,Privada,Buenos Aires,Ciclo de Lic. en Filosofía a Distancia,Grado complementario,Distancia,19,4.0,24.0,Media (1 a 3 años),Ciencias Sociales y Humanas


# Columnas vacías: Eliminar las columnas vacías.

In [70]:
import pandas as pd
# Cargar el archivo CSV
df = pd.read_csv("/content/DatasetLimpio.csv")

columnsNull=df.isnull().sum()[df.isnull().sum() > 1]
print("Antes:")
print(columnsNull)

df[df[['nivel','cantidadCarrerasVirtuales','cantidadAreas']].isnull().any(axis=1)]

Antes:
nivel                         3
cantidadCarrerasVirtuales    11
cantidadAreas                11
dtype: int64


Unnamed: 0,nombreUniversidad,sector,provincia,nombreCarrera,nivel,modalidad,cantidadCarrerasVirtuales,cantidadAreas,duracion_meses,categoria_duracion,areaConocimiento
119,Universidad Nacional de Córdoba,Pública,Córdoba,Especialización en Didáctiva de las Lenguas Ex...,,Distancia,12.0,4.0,18.0,Media (1 a 3 años),Educación y Psicología
237,Universidad UFLO,Privada,Buenos Aires,Especialización Psicoterapia Infanto – Juvenil,,,40.0,5.0,12.0,Media (1 a 3 años),Ciencias Sociales y Humanas
238,Universidad Abierta Interamericana,privada,Buenos Aires - Rosario,Arquitectura,"pregrado, grado y posgrado",Presencial,,,60.0,Larga (más de 3 años),Otros/No Clasificados
239,Universidad Abierta Interamericana,privada,Buenos Aires - Rosario,Licenciatura en Diseño de Interiores,"pregrado, grado y posgrado",Presencial,,,48.0,Larga (más de 3 años),Otros/No Clasificados
240,Universidad Abierta Interamericana,privada,Buenos Aires - Rosario,Doctorado en Arquitectura y Urbanismo,"pregrado, grado y posgrado",Presencial,,,24.0,Media (1 a 3 años),Otros/No Clasificados
241,Universidad Abierta Interamericana,privada,Buenos Aires - Rosario,Licenciatura-en-diseño-gráfico/,"pregrado, grado y posgrado",Presencial,,,48.0,Larga (más de 3 años),"Diseño, Arte y Comunicación"
242,Universidad Abierta Interamericana,privada,Buenos Aires - Rosario,Licenciatura en Periodismo,"pregrado, grado y posgrado",Presencial,,,48.0,Larga (más de 3 años),"Diseño, Arte y Comunicación"
243,Universidad Abierta Interamericana,privada,Buenos Aires - Rosario,Licenciado en Producción y Realización Audiovi...,"pregrado, grado y posgrado",Presencial,,,48.0,Larga (más de 3 años),"Diseño, Arte y Comunicación"
244,Universidad Abierta Interamericana,privada,Buenos Aires - Rosario,Lic. en Publicidad,"pregrado, grado y posgrado",Presencial,,,48.0,Larga (más de 3 años),"Diseño, Arte y Comunicación"
245,Universidad Abierta Interamericana,privada,Buenos Aires - Rosario,Licenciatura en Relaciones Públicas,"pregrado, grado y posgrado",Presencial,,,48.0,Larga (más de 3 años),"Diseño, Arte y Comunicación"


In [81]:
import pandas as pd
# Cargar el archivo CSV
df = pd.read_csv("/content/DatasetLimpio.csv")

columnsNull=df.isnull().sum()[df.isnull().sum() > 1]
print("Antes:")
print(columnsNull)

df.loc[119, 'nivel'] = "Especialización"
df.loc[120, 'nivel'] = "Especialización"

#Elimine las filas con un valor NULL en la columna "nivel":
df.dropna(subset=['nivel'], inplace = True)

df.fillna({'cantidadAreas': 0}, inplace=True)

df.fillna({'cantidadCarrerasVirtuales': 0}, inplace=True)


columnsNull=df.isnull().sum()[df.isnull().sum() > 1]
print("Depues:")
print(columnsNull)

df[df[['nivel','cantidadCarrerasVirtuales','cantidadAreas']].isnull().any(axis=1)]



df.to_csv("DatasetLimpio.csv", index=False)
print("DatasetLimpio.csv actualizado")


Antes:
Series([], dtype: int64)
Depues:
Series([], dtype: int64)
DatasetLimpio.csv actualizado



## 3. Visualización de Datos con Matplotlib

 ### 📊 Gráfico 1 – Torta (variable categórica)

### 📊 Gráfico 2 – Barras


### 📊 Gráfico 3 – Histograma o Línea

### 📊 Gráfico 4 – Libre

## 4. Análisis Descriptivo de Variables

### ➤ Medidas estadísticas (media, mediana, moda, etc.)

### ➤ Simetría de las distribuciones