<a href="https://colab.research.google.com/github/vhcontre/data-analytics-con-python/blob/main/data_analytics_con_python_clase_4.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 🐍 Víctor H

Hola! Soy Victor, y me encanta aprender Data Analytics con Python. Aquí van algunas cosas sobre mí:

**Fortalezas:**
- Trabajo en proyectos de software
- Me gusta aprender cosas nuevas
- Disfruto organizar y planificar

*Recuerden siempre*: la práctica hace al maestro.

Documentación oficial de Python: [Python Docs](https://docs.python.org/3/)


> “El conocimiento es poder, pero la sabiduría es aplicarlo.”


# ©️ Clase 4 - Calidad de Datos

## DATA ANALYTICS - Calidad de Datos

---

## Índice

- Obtención y limpieza de datos en Python  
- Concepto de calidad de los datos y su importancia  
- Identificación y tratamiento de valores nulos y duplicados  
- Limpieza de Datos con Pandas  
- Los desafíos de la raw data  
- Técnicas para limpiar datos: eliminación de duplicados, caracteres no deseados, corrección en los tipos de datos  

---

## Objetivos de la Clase

- Conocer los conceptos principales de la calidad de datos y su importancia en la analítica de datos  
- Aprender a identificar valores nulos y duplicados, y considerar estrategias para tratarlos  

---

## Introducción a la Calidad de los Datos

La **calidad de datos** es la medida de la adecuación de un conjunto de datos para un propósito específico.

### Atributos clave

- Precisión  
- Completitud  
- Consistencia  
- Validez  
- Relevancia  

### Importancia

- Fundamento de análisis precisos y decisiones informadas  
- Ejemplo: decisiones erróneas en lanzamientos de productos debido a datos inexactos pueden llevar a pérdidas significativas  

---

## Evaluación de la Calidad de los Datos en Python

Usar la biblioteca **Pandas** para analizar calidad:  

```python
df.info()       # Resumen del DataFrame
df.isnull().sum()  # Contar valores nulos
````

---

## Identificación y Tratamiento de Valores Nulos

* Valores nulos: representan la ausencia de información
* Problemas: dificultan análisis estadísticos y modelos predictivos

### Estrategias

* Eliminación
* Imputación: rellenar con media, mediana o moda
* Predicción: modelos predictivos para estimar valores faltantes

---

## Identificación y Tratamiento de Duplicados

* Duplicados: registros repetidos en conjuntos de datos
* Problemas: inflan resultados y distorsionan análisis

### Estrategias

* Identificación
* Eliminación

---

## Reflexión Final

* La calidad de los datos es esencial para un análisis efectivo
* El manejo adecuado de valores nulos y duplicados asegura resultados precisos
* Implementar buenas prácticas en Python mejora la fiabilidad y relevancia de los análisis

---

## ⚙️ Ejercicios Prácticos

### Actividad 1: Identificación de Valores Nulos y Duplicados

**Objetivos:**

* Practicar la carga de datos en un DataFrame usando Pandas
* Identificar y contar valores nulos en diferentes columnas
* Detectar y contar registros duplicados
* Generar un informe que resuma los hallazgos de la limpieza

**Contexto:**
Mentor: Matías
Tu tarea: cargar datos en un DataFrame y aplicar métodos para identificar filas con datos faltantes y duplicados

**Consigna:**

* Descargar los datos en CSV y cargarlos en un DataFrame con Pandas
* Usar `isnull()` para identificar y contar valores nulos
* Usar `duplicated()` para identificar y contar registros duplicados
* Crear un informe que incluya:

  * Total de registros
  * Valores nulos por columna
  * Número de filas duplicadas
  * DataFrame con registros duplicados

**Datos:** `satis_clientes`

**Importancia en SynthData:**
Datos limpios y precisos permiten tomar decisiones inteligentes y generar informes confiables

---

### Actividad 2: Exploración y limpieza preliminar con Python

**Objetivos:**

* Identificar datos duplicados y nulos
* Analizar el mejor tratamiento para datos anómalos y nulos

**Contexto:**
Mentor: Luis (Analista de BI)
Trabajarás con una planilla de Google Sheets que registra temperaturas corporales durante 10 días

**Consigna:**

* Crear un DataFrame a partir de la planilla
* Identificar datos duplicados y nulos
* Analizar el mejor tratamiento para valores anómalos y nulos

**Importancia en SynthData:**
La exploración y limpieza de datos asegura que los análisis sean robustos y significativos

---

### Notas finales

* Los ejercicios son simulaciones; las soluciones dependen del contexto, los datasets y los requerimientos específicos
* 📄 ¡Nuevo cuestionario en Campus! (obligatorio para avanzar en la cursada)



## Actividad 1: Identificación de Valores Nulos y Duplicados

**Objetivo:**  
Descargar los datos en formato CSV y cargarlos en un DataFrame en Python usando **Pandas**.  

**Pasos a realizar:**

1. Utilizar el método `isnull()` para identificar las filas con datos faltantes y contar el número de valores nulos por columna.  
2. Usar el método `duplicated()` para identificar las filas duplicadas y contar cuántas filas duplicadas hay en total.  
3. Crear un informe que incluya:  
   - La cantidad total de registros en el DataFrame.  
   - La cantidad total de valores nulos por columna.  
   - La cantidad de filas duplicadas.  
   - Crear un DataFrame de los registros duplicados para visualizar su contenido.  

**Datos a utilizar:** `satis_clientes`  

**Importancia en SynthData:**  
La identificación de valores nulos y duplicados es vital en el trabajo de análisis de datos. En SynthData, utilizamos datos limpios y precisos para tomar decisiones inteligentes. Aprender a reconocer estos problemas en los datos permitirá brindar un gran apoyo al equipo en la generación de informes y análisis más confiables.


In [None]:
from google.colab import files

# ===============================
# Función: Subir CSV desde PC
# ===============================
def subir_csv_local():
    """
    Hola, soy tu función para cargar un CSV desde tu computadora.

    Lo que hago:
    1. Te permite seleccionar un archivo CSV desde tu PC.
    2. Lo leo con Pandas y lo devuelvo listo para usar.

    Retorna:
    str : Nombre del archivo CSV subido
    """
    uploaded = files.upload()  # Esto abre el selector de archivos
    nombre_csv = list(uploaded.keys())[0]
    print(f"Archivo cargado: {nombre_csv}")
    return nombre_csv

# ===============================
# Ejemplo de uso integrando la función existente
# ===============================
# Primero subo el archivo
archivo_local = subir_csv_local()




In [None]:
import pandas as pd

# ===============================
# Función: Actividad 1 - Valores Nulos y Duplicados
# ===============================
def analizar_nulos_duplicados(nombre_csv):
    """
    Función para revisar valores nulos y duplicados.

    Lo que hago:
    1. Cargo el CSV en un DataFrame.
    2. Identifico y cuento los valores nulos por columna.
    3. Identifico y cuento filas duplicadas.
    4. Creo un informe resumido y un DataFrame con los duplicados.

    Parámetros:
    nombre_csv : str : Ruta o URL del archivo CSV a analizar.

    Retorna:
    dict : Un diccionario con:
        - 'df': DataFrame original cargado.
        - 'nulos': Serie con la cantidad de valores nulos por columna.
        - 'duplicados_count': Número total de filas duplicadas.
        - 'duplicados_df': DataFrame con las filas duplicadas.
    """
    # Cargo el CSV
    df = pd.read_csv(nombre_csv)

    # Identifico valores nulos
    nulos = df.isnull().sum()

    # Identifico duplicados
    duplicados_df = df[df.duplicated()]
    duplicados_count = len(duplicados_df)

    # Informe resumido
    print("===== Informe de Calidad de Datos =====")
    print(f"Total de registros: {len(df)}")
    print("\nValores nulos por columna:")
    print(nulos)
    print(f"\nTotal de filas duplicadas: {duplicados_count}")
    if duplicados_count > 0:
        print("\nEjemplo de filas duplicadas:")
        display(duplicados_df.head())
    print("======================================")

    return {
        'df': df,
        'nulos': nulos,
        'duplicados_count': duplicados_count,
        'duplicados_df': duplicados_df
    }

# ===============================
# Ejemplo de uso
# ===============================
# resultados = analizar_nulos_duplicados('ruta_o_url_del_csv/satis_clientes.csv')
resultados = analizar_nulos_duplicados(archivo_local)


## Actividad 2: Exploración y limpieza preliminar con Python

### Objetivos
- Identificar los datos duplicados y nulos en el conjunto.
- Analizar el mejor tratamiento para los datos anómalos y nulos.

### Contexto
En esta actividad, trabajarás guiado por **Luis**, nuestro Analista de BI, con una planilla de Google Sheets que registra la temperatura corporal de un grupo de personas durante 10 días.  
Debes realizar un examen preliminar para identificar datos problemáticos, como duplicados y valores nulos.  
Esta práctica te ayudará a dar los pasos previos a la limpieza de datos, un componente vital en cualquier proyecto de análisis.

### Consigna
1. Crear un DataFrame a partir de la planilla de cálculo y efectuar un examen preliminar.
2. Identificar los datos:
   - Duplicados
   - Nulos
3. Analizar cuál sería el mejor tratamiento para los datos anómalos (fuera de rango) y nulos.


In [None]:
import pandas as pd
import numpy as np
import random
from google.colab import files

# ===============================
# Función: Generar y descargar dataset simulado
# ===============================
def generar_y_descargar_dataset(nombre_archivo="dataset_simulado.xlsx", n_filas=150):
    """
    Genera un dataset simulado con datos de temperatura, nulos, duplicados y anomalías,
    guarda un archivo Excel y permite descargarlo directamente en Colab.

    Parámetros:
    nombre_archivo : str : nombre del archivo Excel a generar (por defecto 'dataset_simulado.xlsx')
    n_filas : int : cantidad de filas que tendrá el dataset (por defecto 150)

    Retorna:
    str : nombre del archivo Excel generado
    """
    np.random.seed(42)

    # Columnas del dataset
    columnas = ["ID", "Paciente", "Dia", "Temperatura", "Observaciones"]

    # Generar datos simulados
    ids = [f"P{str(i).zfill(3)}" for i in range(1, n_filas+1)]
    pacientes = [f"Paciente_{random.randint(1, 50)}" for _ in range(n_filas)]
    dias = [random.randint(1, 10) for _ in range(n_filas)]
    temperaturas = np.random.normal(loc=36.6, scale=0.5, size=n_filas)

    # Insertar valores nulos aleatorios
    for _ in range(int(0.05*n_filas)):
        idx = random.randint(0, n_filas-1)
        temperaturas[idx] = np.nan

    # Insertar anomalías (temperaturas fuera de rango)
    for _ in range(int(0.05*n_filas)):
        idx = random.randint(0, n_filas-1)
        temperaturas[idx] = random.uniform(39, 42)

    observaciones = [""]*n_filas

    # Crear DataFrame
    df = pd.DataFrame({
        "ID": ids,
        "Paciente": pacientes,
        "Dia": dias,
        "Temperatura": temperaturas,
        "Observaciones": observaciones
    })

    # Insertar duplicados aleatorios
    for _ in range(int(0.05*n_filas)):
        dup = df.sample(1)
        df = pd.concat([df, dup], ignore_index=True)

    # Guardar a Excel
    df.to_excel(nombre_archivo, index=False)

    # Descargar el archivo en Colab
    files.download(nombre_archivo)

    print(f"Archivo Excel generado y listo para descargar: {nombre_archivo}")
    return nombre_archivo

#Caso de uso
archivo = generar_y_descargar_dataset()


In [None]:
import pandas as pd
from google.colab import files

# 1. Subir el archivo Excel
uploaded = files.upload()
nombre_archivo = list(uploaded.keys())[0]

# 2. Cargar el Excel en un DataFrame
df = pd.read_excel(nombre_archivo, engine='openpyxl')
print("Primeras filas del dataset:")
display(df.head())

# 3. Resumen de nulos y duplicados
print("Valores nulos por columna:")
print(df.isnull().sum())

print("\nCantidad de filas duplicadas:", df.duplicated().sum())

# 4. Generar tabla de decisiones automáticamente
def analizar_actividad2(df):
    """
    Creo la tabla de decisiones indicando qué hacer con nulos, anómalos y duplicados
    según los contextos de la actividad.
    """
    # Contextos y tipos de dato según la consigna
    tabla = pd.DataFrame({
        "Contexto": [
            "Estudio estadístico",
            "Estudio estadístico",
            "Seguimiento de un paciente",
            "Seguimiento de un paciente",
            "Detección de casos de contagio"
        ],
        "Tipo de dato": ["anómalos", "nulos", "anómalos", "nulos", "anómalos"],
        "Ignorar": ["", "", "", "", ""],
        "Eliminar": ["", "", "", "", ""],
        "Reemplazar": ["", "", "", "", ""],
        "Analizar": ["", "", "", "", ""]
    })

    # Llenar la tabla según las reglas
    for i, row in tabla.iterrows():
        # Revisar nulos en el DataFrame
        if row["Tipo de dato"] == "nulos":
            # Marcar reemplazar si hay nulos en el dataset
            if df.isnull().sum().sum() > 0:
                tabla.at[i, "Reemplazar"] = "✔️"
        # Revisar anomalías (simuladas como valores fuera de rango)
        if row["Tipo de dato"] == "anómalos":
            tabla.at[i, "Analizar"] = "✔️"
            # Marcar eliminar si hay duplicados
            if df.duplicated().sum() > 0:
                tabla.at[i, "Eliminar"] = "✔️"

    return tabla

# Ejecuto la función y mostrar la tabla
tabla_decisiones = analizar_actividad2(df)
print("Tabla de decisiones final:")
display(tabla_decisiones)

# Guardo la tabla de decisiones a Excel
tabla_decisiones.to_excel("tabla_decisiones_actividad2_final.xlsx", index=False)
print("Tabla guardada como 'tabla_decisiones_actividad2_final.xlsx'. Se puede descargar.😉")


In [None]:
import pandas as pd
from google.colab import files

# 1. Subir archivo Excel
uploaded = files.upload()
nombre_archivo = list(uploaded.keys())[0]

# 2. Cargo Excel en un DataFrame
df = pd.read_excel(nombre_archivo, engine='openpyxl')
print("Primeras filas del dataset:")
display(df.head())

# 3. Resumen de nulos y duplicados
print("Valores nulos por columna:")
display(df.isnull().sum())
print("Cantidad de filas duplicadas:", df.duplicated().sum())

# 4. Función para detectar anomalías solo en Temperatura
def detectar_anomalias_temperatura(df):
    # Considero anomalía si temperatura <35 o >42 (hipotermia - hipertermia)
    anomalias = df[(df['Temperatura'] < 35) | (df['Temperatura'] > 42)]
    return anomalias

# 5. Función para generar tabla de decisiones
def analizar_actividad2_preciso(df):
    tabla = pd.DataFrame({
        "Contexto": [
            "Estudio estadístico",
            "Estudio estadístico",
            "Seguimiento de un paciente",
            "Seguimiento de un paciente",
            "Detección de casos de contagio"
        ],
        "Tipo de dato": ["anómalos", "nulos", "anómalos", "nulos", "anómalos"],
        "Ignorar": ["", "", "", "", ""],
        "Eliminar": ["", "", "", "", ""],
        "Reemplazar": ["", "", "", "", ""],
        "Analizar": ["", "", "", "", ""]
    })

    # Anomalías en Temperatura
    anomalías = detectar_anomalias_temperatura(df)
    total_anom = anomalías.shape[0]

    # Nulos
    total_nulos = df.isnull().sum().sum()

    # Duplicados
    total_duplicados = df.duplicated().sum()

    # Llenar la tabla
    for i, row in tabla.iterrows():
        if row["Tipo de dato"] == "nulos" and total_nulos > 0:
            tabla.at[i, "Reemplazar"] = f"✔️ ({total_nulos})"
        if row["Tipo de dato"] == "anómalos" and total_anom > 0:
            tabla.at[i, "Analizar"] = f"✔️ ({total_anom})"
        if total_duplicados > 0:
            tabla.at[i, "Eliminar"] = f"✔️ ({total_duplicados})"

    return tabla

# 6. Mostrar tabla consolidada
tabla_decisiones = analizar_actividad2_preciso(df)
print("Tabla de decisiones final (conteo real):")
display(tabla_decisiones)

# 7. Guardar la tabla final
tabla_decisiones.to_excel("tabla_decisiones_actividad2_preciso.xlsx", index=False)
print("Tabla guardada como 'tabla_decisiones_actividad2_preciso.xlsx'. Descargar. 🐍")
