# Clase 3 y 4: Exploración y Preparación de Datos con Python

Este notebook cubre los conceptos fundamentales para la exploración y preparación de datos utilizando Python, enfocándose en las librerías `pandas` y `json`. Se estructura en bloques temáticos que van desde las estructuras de datos básicas hasta un caso integrador.

## Configuración Inicial: Importación de Librerías

Antes de comenzar, importamos las librerías que utilizaremos a lo largo del notebook. 

*   `pandas`: Es la librería fundamental para la manipulación y análisis de datos tabulares en Python. Proporciona estructuras de datos como `DataFrame` y `Series`.
*   `json`: Permite trabajar con datos en formato JSON (JavaScript Object Notation), muy común para el intercambio de datos en la web.
*   `matplotlib.pyplot`: Es una librería para crear visualizaciones estáticas, animadas e interactivas.
*   `io.StringIO`: Permite tratar cadenas de texto (strings) en memoria como si fueran archivos, útil para simular la lectura/escritura de archivos CSV.
*   `re`: Proporciona operaciones con expresiones regulares, útiles para la manipulación avanzada de texto.

La línea `%matplotlib inline` es un comando específico de Jupyter que asegura que los gráficos generados por Matplotlib se muestren directamente en la salida de la celda del notebook.

In [2]:
# Imports generales
import pandas as pd
import json
import matplotlib.pyplot as plt
from io import StringIO
import re

# Configuración para mostrar gráficos inline en Jupyter
%matplotlib inline

> Notar como los comandos aparecen subrayados, esto indica que me va a dar un error al momento de correr la celda, porque esos paquetes no están instalados en el env. 

Una vez que (1) activamos el env, (2) instalamos los paquetes, (3) seleccionamos el interprete en vs-code y (4) el interprete en la celda, podemos correr todo. Vs-code guarda la configuración durante la sesión. Si cerramos todo, hay que volver a hacer los pasos 1, 3 y 4. 

In [3]:
# Imports generales
import pandas as pd
import json
import matplotlib.pyplot as plt
from io import StringIO
import re

# Configuración para mostrar gráficos inline en Jupyter
%matplotlib inline

Instalando desde la notebook en lugar de la terminal

In [4]:
%pip install pandas

Note: you may need to restart the kernel to use updated packages.


Caminos posibles: 
- seleccionar el interprete de python y jupyter de la lista de vs code, si ya los tenemos instalados. 
    - si no hay uno, instalar con conda
- instalar los paquetes requeridos con 'pip install'

> si queremos correr los comandos de terminal directamente desde la notebook, y no desde la terminal a nivel del env, podemos hacerlo, y debemos antemponer '!' antes del comando: 

`
%pip install pandas
`

> MUCHO OJO CON USAR "!" COMO ALTERNATIVA A ESTO, NO ES NADA RECOMENDABLE. 

> también notar que en general, uno puede seguir la regla de que el nombre del paquete de importación es el mismo que se usa para la instalación del pip (import pandas --> pip install pandas), pero cuidado! hay excepciones. Si sale error en el pip install, hay que buscar en google (en el sitio pip) cómo se llama la librería

Ante la advertencia: 
Note: you may need to restart the kernel to use updated packages.

ctrl+shift+p > Jupyter: restart kernel 



In [None]:
# Esto fuerza cierre del proceso del kernel (Colab lo reinicia automáticamente)
import os
import IPython

os.kill(os.getpid(), 9)


#Esto sin embargo, me obliga a volver a ejecutar todo mi codigo previo, es como si cerrara todo y volviera a comenzar. Es una alternativa que sólo tiene sentido si sabemos que vamos a correr cosas que van a romper algo y vamos a probar iteraciones con eso. Esta celda no debe quedar en el medio del workflow porque reinicia todo. USAR CON PRECAUCIÓN. 

: 

In [5]:

# Paso necesario porque reinicié el Kernel... 



# Imports generales
import pandas as pd
import json
import matplotlib.pyplot as plt
from io import StringIO
import re

# Configuración para mostrar gráficos inline en Jupyter
%matplotlib inline

print("Importaciones, check. ")

Importaciones, check. 


# ESTRUCTURAS BÁSICAS DE PYTHON PARA DATOS

**Objetivo:** Comprender y manipular las estructuras de datos fundamentales de Python (listas, diccionarios) que son la base para manejar datos antes de usar librerías especializadas como Pandas. Reconoceremos tipos de datos básicos y veremos cómo se anidan estas estructuras, introduciendo el formato JSON.


## Actividad 1: Tipos de Datos Primitivos

En Python, todo dato tiene un tipo asociado. Los tipos básicos o primitivos son los bloques de construcción fundamentales. Entenderlos es crucial porque determinan qué operaciones podemos realizar con ellos.

*   `int`: Números enteros (ej: `32`, `-5`).
*   `str`: Cadenas de texto (ej: `"Sofía"`, `'Hola Mundo'`). Se definen con comillas simples o dobles.
*   `bool`: Valores booleanos, que solo pueden ser `True` o `False`. Útiles para representar estados o condiciones.
*   `float`: Números de punto flotante (decimales) (ej: `188750.50`, `3.14`).

La función `type()` nos permite inspeccionar el tipo de una variable.

In [6]:
edad_simple = 32
nombre_simple = "Sofía"
activo_simple = True
ingresos_simple = 188750.50

print(f"Variable: edad_simple, Valor: {edad_simple}, Tipo: {type(edad_simple)}")
print(f"Variable: nombre_simple, Valor: {nombre_simple}, Tipo: {type(nombre_simple)}")
print(f"Variable: activo_simple, Valor: {activo_simple}, Tipo: {type(activo_simple)}")
print(f"Variable: ingresos_simple, Valor: {ingresos_simple}, Tipo: {type(ingresos_simple)}")

Variable: edad_simple, Valor: 32, Tipo: <class 'int'>
Variable: nombre_simple, Valor: Sofía, Tipo: <class 'str'>
Variable: activo_simple, Valor: True, Tipo: <class 'bool'>
Variable: ingresos_simple, Valor: 188750.5, Tipo: <class 'float'>


**Observación:** Estos tipos simples son la base, pero los datos del mundo real rara vez vienen perfectamente organizados solo con estos tipos. A menudo encontraremos mezclas o representaciones incorrectas (ej: números como texto).

## Actividad 2: Listas - Colecciones Ordenadas

Las listas (`list`) son una de las estructuras de datos más versátiles de Python. Permiten almacenar una colección ordenada de ítems. 

*   **Ordenadas:** Los elementos mantienen el orden en que fueron añadidos.
*   **Mutables:** Se pueden modificar después de su creación (añadir, eliminar, cambiar elementos).
*   **Indexadas:** Se accede a los elementos mediante un índice numérico, comenzando desde 0 para el primer elemento. También se pueden usar índices negativos (`-1` para el último, `-2` para el penúltimo, etc.).
*   **Heterogéneas:** Pueden contener elementos de diferentes tipos (aunque para análisis de datos, usualmente preferimos listas homogéneas).

Se definen usando corchetes `[]`.

In [None]:
# Lista con valores homogéneos (todos enteros)
edades_lista = [24, 33, 19, 45, 28]
print(f"Lista de edades: {edades_lista}")

In [None]:
# Acceso a elementos por índice
print(f"Primer elemento (índice 0): {edades_lista[0]}")
print(f"Último elemento (índice -1): {edades_lista[-1]}")

In [None]:
# Iteración sobre la lista usando un bucle 'for'
print("\nRecorriendo la lista:")
for edad_item in edades_lista:
    print(f"Edad: {edad_item}")

In [None]:
# Ejemplo de lista heterogénea (mezcla de tipos)
edades_mezcla = [24, "33", None, 45, "veintiocho"]
print(f"\nLista heterogénea: {edades_mezcla}")

**Discusión:** La lista `edades_lista` es ideal porque todos sus elementos son números, permitiendo operaciones matemáticas (como calcular el promedio). En cambio, `edades_mezcla` presenta un desafío común en datos reales: contiene un número como texto (`"33"`), un valor nulo (`None`), y un número escrito con palabras (`"veintiocho"`). Estas inconsistencias impiden cálculos directos y requerirán limpieza (como veremos en bloques posteriores).

## Actividad 3: Diccionarios - Colecciones Clave-Valor

Los diccionarios (`dict`) almacenan pares de `clave: valor`. Son extremadamente útiles para representar entidades individuales (como una persona, un producto, una configuración) donde cada atributo tiene un nombre (la clave) y un valor asociado.

*   **Claves:** Deben ser únicas dentro del diccionario y de un tipo inmutable (usualmente strings o números).
*   **Valores:** Pueden ser de cualquier tipo (números, strings, listas, otros diccionarios, etc.).
*   **Acceso:** Se accede a los valores usando sus claves entre corchetes `[]` o mediante el método `.get()`.
*   **Mutables:** Se pueden añadir, modificar o eliminar pares clave-valor.
*   **Orden (Python 3.7+):** A partir de Python 3.7, los diccionarios recuerdan el orden de inserción.

Se definen usando llaves `{}`.

In [5]:
persona_dict_simple = {
    "nombre": "Sofía",
    "edad": 32,
    "activo": True,
    "ingresos": 188750.50
}
print(f"Diccionario persona: {persona_dict_simple}")

Diccionario persona: {'nombre': 'Sofía', 'edad': 32, 'activo': True, 'ingresos': 188750.5}


In [4]:
# Diccionario representando una persona
persona_dict_simple = {
    "nombre": "Sofía",
    "edad": 32,
    "activo": True,
    "ingresos": 188750.50
}
print(f"Diccionario persona: {persona_dict_simple}")

# Acceso a valores usando la clave
print(f"Acceso a nombre (usando []): {persona_dict_simple['nombre']}")

# Acceso seguro usando .get()
# .get() es útil porque no da error si la clave no existe; devuelve None por defecto.
print(f"Acceso a ingresos (usando .get()): {persona_dict_simple.get('ingresos')}")

# Acceso a una clave que no existe con .get()
ciudad = persona_dict_simple.get('ciudad')
print(f"Acceso a 'ciudad' (clave inexistente): {ciudad}")

# Acceso a clave inexistente con .get() y valor por defecto
ciudad_default = persona_dict_simple.get('ciudad', 'Valor no encontrado')
print(f"Acceso a 'ciudad' con valor por defecto: {ciudad_default}")

# Intentar acceder a una clave inexistente con [] da un error (KeyError)
# Descomentar la siguiente línea para ver el error:
# print(persona_dict_simple['ciudad'])

Diccionario persona: {'nombre': 'Sofía', 'edad': 32, 'activo': True, 'ingresos': 188750.5}
Acceso a nombre (usando []): Sofía
Acceso a ingresos (usando .get()): 188750.5
Acceso a 'ciudad' (clave inexistente): None
Acceso a 'ciudad' con valor por defecto: Valor no encontrado


In [None]:
# Diccionario representando una persona
persona_dict_simple = {
    "nombre": "Sofía",
    "edad": 32,
    "activo": True,
    "ingresos": 188750.50
}

In [None]:
print(f"Diccionario persona: {persona_dict_simple}")

In [None]:
# Acceso a valores usando la clave
print(f"Acceso a nombre (usando []): {persona_dict_simple['nombre']}")

In [None]:

# Acceso seguro usando .get()
# .get() es útil porque no da error si la clave no existe; devuelve None por defecto.
print(f"Acceso a ingresos (usando .get()): {persona_dict_simple.get('ingresos')}")

In [None]:
# Acceso a una clave que no existe con .get()
# solo tenemos nombres, edad, activo, ingreso... no está la var ciudades
ciudad = persona_dict_simple.get('ciudad')
print(f"Acceso a 'ciudad' (clave inexistente): {ciudad}")

#retorna None. 

Acceso a 'ciudad' (clave inexistente): None


In [9]:
# Acceso a clave inexistente con .get() y valor por defecto
ciudad_default = persona_dict_simple.get('ciudad', 'Valor no encontrado para Ciudad')
#si necesito más detalle, puedo especificar qué me devuelve el valor nulo, en lugar de indicar sólo none. 
print(f"Acceso a 'ciudad' con valor por defecto: {ciudad_default}")

Acceso a 'ciudad' con valor por defecto: Valor no encontrado para Ciudad


**Interpretación en Datos:** En un diccionario que representa un registro, las **claves** actúan como los **nombres de las variables** o columnas (ej: 'nombre', 'edad'), y los **valores** son los **datos** correspondientes para ese registro específico (ej: 'Sofía', 32).

## Actividad 4: Lista de Diccionarios - Estructura Semi-Tabular

Una estructura muy común para representar conjuntos de datos antes de usar Pandas es una **lista donde cada elemento es un diccionario**. Cada diccionario representa una fila o registro, y las claves dentro de cada diccionario representan las columnas.

Esta estructura es frecuente al obtener datos de APIs web (que a menudo devuelven JSON) o al procesar formularios.

**Ventaja:** Flexible.
**Desventaja:** Puede ser inconsistente (diccionarios pueden tener claves diferentes, valores de tipos incorrectos, etc.), lo que requiere validación y limpieza.

In [None]:
# Lista de diccionarios representando varias personas
personas = [
    {"nombre": "Ana", "edad": 31, "sexo": "F"},
    {"nombre": "Luis", "edad": 28, "sexo": "M"},
    {"nombre": "Carla", "edad": None, "sexo": "F"}, # Edad faltante (None)
    {"nombre": "Juan", "edad": "veintinueve", "sexo": "M"} # Edad como texto
]
print(f"Lista de diccionarios (personas):\n{personas}")

# Tarea: Iterar sobre la lista e imprimir solo los nombres
# Accedemos a cada diccionario (persona_item) y luego a su clave 'nombre'
print("\nNombres en la lista de personas:")
for persona_item in personas:
    print(persona_item["nombre"])

**Observación:** Ya vemos problemas potenciales: la edad de Carla es `None` (faltante) y la de Juan es un string (`"veintinueve"`). Esto es típico y necesitaremos herramientas (como Pandas) para manejarlo eficientemente.

## Actividad 4.1: Datos Tabulares y el Formato CSV

Antes de sumergirnos en estructuras jerárquicas como JSON, es fundamental entender el formato más común para datos **tabulares**: CSV.

### ¿Qué son los Datos Tabulares?

Los datos tabulares son aquellos que se organizan en una estructura de **filas y columnas**, similar a una hoja de cálculo o una tabla de una base de datos. Cada **fila** representa un registro u observación individual, y cada **columna** representa una característica o variable específica de esos registros.

### ¿Qué es CSV?

**CSV** significa **C**omma-**S**eparated **V**alues (Valores Separados por Comas). Es un formato de archivo de **texto plano** muy simple y ampliamente utilizado para almacenar datos tabulares.

*   **Estructura Simple:** Cada línea del archivo representa una fila de la tabla.
*   **Delimitador:** Dentro de cada fila, los valores (correspondientes a las columnas) están separados por un carácter delimitador, que comúnmente es una **coma (`,`)**. Sin embargo, a veces se usan otros delimitadores como el punto y coma (`;`) o el tabulador (`\t`).
*   **Encabezado (Opcional):** A menudo, la primera línea del archivo CSV contiene los nombres de las columnas (el encabezado o *header*), lo que facilita la interpretación de los datos.
*   **Texto Plano:** Al ser texto plano, los archivos CSV pueden ser abiertos y leídos por casi cualquier editor de texto, aunque se visualizan mejor en programas de hojas de cálculo o con herramientas de análisis de datos.

**Ejemplo de un archivo CSV simple (`usuarios.csv`):**

```csv
ID,Nombre,Ciudad
1,Ana,Madrid
2,Luis,Barcelona
3,Eva,Valencia


In [10]:
# --- 1. Definir los datos y el nombre del archivo ---
# Datos para nuestro archivo CSV
csv_data = """ID,Nombre,Ciudad
1,Ana,Madrid
2,Luis,Barcelona
3,Eva,Valencia
4,Juan,Sevilla"""



In [11]:

nombre_archivo_csv = 'usuarios_ejemplo.csv'

# --- 2. Crear y escribir el archivo CSV ---
# Abrimos el archivo en modo escritura ('w').
# 'with' se asegura de que el archivo se cierre solo al final.
# 'encoding='utf-8'' es bueno para compatibilidad.
with open(nombre_archivo_csv, 'w', encoding='utf-8') as f:
    f.write(csv_data)
    
    #csv_data es el bloque de datos que definimos en la celda anterior. 
print(nombre_archivo_csv)


usuarios_ejemplo.csv


con "print(nombre_archivo_csv)" no se muestra el contenido del archivo


In [12]:
print(f.read(nombre_archivo_csv))

# f.read() no acepta ningún argumento.
# f no existe fuera del bloque with.

TypeError: argument should be integer or None, not 'str'

In [None]:
with open(nombre_archivo_csv, 'r', encoding='utf-8') as f:
    print(f.read())

ID,Nombre,Ciudad
1,Ana,Madrid
2,Luis,Barcelona
3,Eva,Valencia
4,Juan,Sevilla


## ¿Qué es f?

**f es una variable temporal** (no es una palabra reservada). Es simplemente el nombre que le ponemosal objeto archivo. Podría llamarse archivo, file, fp, txt, etc.

```python

with open('archivo.txt', 'r') as archivo:
    contenido = archivo.read()
```
> ahora "f" se llama "archivo". 

, 'r': modo lectura. , 'w' modo escritura. 

## With? 


Es una forma segura y compacta de trabajar con archivos en Python usando un context manager (with).
 Al terminar el bloque with, el archivo se cierra automáticamente, incluso si hubo errores dentro.

**Se puede ejecutar lo mismo sin with**, pero no es recomendado: 

```python
f = open('archivo.txt', 'r')
contenido = f.read()
f.close()
```

Pero si hay un error entre open y close, el archivo podría quedar abierto. Con with, eso nunca pasa.
Si no se cierra el archivo con .close() los datos no se guardan. 
No es recomendado usar este método, pero es bueno saber identificarlo. 


## Ahora visualicemos la matriz de datos: 
# Usemos Pandas


In [None]:
# Importar la librería pandas (convención: importarla como pd)
import pandas as pd


csv_data = """ID,Nombre,Ciudad
1,Ana,Madrid
2,Luis,Barcelona
3,Eva,Valencia
4,Juan,Sevilla"""

nombre_archivo_csv = 'usuarios_ejemplo.csv'

with open(nombre_archivo_csv, 'w', encoding='utf-8') as f:
    f.write(csv_data)

# --- 3. Leer / Cargar el archivo CSV con Pandas ---
# Leemos el archivo que acabamos de crear.
df_usuarios = pd.read_csv(nombre_archivo_csv)

df_usuarios


Leyendo el archivo 'usuarios_ejemplo.csv' con Pandas...


Unnamed: 0,ID,Nombre,Ciudad
0,1,Ana,Madrid
1,2,Luis,Barcelona
2,3,Eva,Valencia
3,4,Juan,Sevilla


In [14]:
print(df_usuarios)

   ID Nombre     Ciudad
0   1    Ana     Madrid
1   2   Luis  Barcelona
2   3    Eva   Valencia
3   4   Juan    Sevilla


In [None]:
df_usuarios.head(2)
# veamos solo el encabezado, las dos primeras filas a ver cómo se ve el df. 

Unnamed: 0,ID,Nombre,Ciudad
0,1,Ana,Madrid
1,2,Luis,Barcelona


### Nota sobre orden, funciones() y argumentos()

> funciones(algo)

Las funciones realizan una acción sobre el elemento que pasemos "algo". 

> algo.argumento()

Los argumentos sólo operan sobre elementos de un cierto tipo. "algo" en este caso es afectado por el argumento. 

> funciones(algo.argumento())

Lo de arriba es un ejemplo de encadenamiento típico. 


In [20]:
df = df_usuarios
type(df)

pandas.core.frame.DataFrame

In [22]:
df.head(2)

Unnamed: 0,ID,Nombre,Ciudad
0,1,Ana,Madrid
1,2,Luis,Barcelona


In [24]:
print(df.head(2))

   ID Nombre     Ciudad
0   1    Ana     Madrid
1   2   Luis  Barcelona


In [25]:
# Error típico

print.head(df)

AttributeError: 'builtin_function_or_method' object has no attribute 'head'

**este error** dice algo así como *"no le podés pasar head() a una función, porque una función de python no tiene "head"* 

Esto sucede porque head() es un atributo de un dataset pandas, o de una columna de un dataset pandas. 

## Volviendo al df...

In [26]:
# Importar la librería pandas (convención: importarla como pd)
import pandas as pd


csv_data = """ID,Nombre,Ciudad
1,Ana,Madrid
2,Luis,Barcelona
3,Eva,Valencia
4,Juan,Sevilla"""

nombre_archivo_csv = 'usuarios_ejemplo.csv'

with open(nombre_archivo_csv, 'w', encoding='utf-8') as f:
    f.write(csv_data)

# --- 3. Leer / Cargar el archivo CSV con Pandas ---
# Leemos el archivo que acabamos de crear.
df_usuarios = pd.read_csv(nombre_archivo_csv)

df_usuarios

Unnamed: 0,ID,Nombre,Ciudad
0,1,Ana,Madrid
1,2,Luis,Barcelona
2,3,Eva,Valencia
3,4,Juan,Sevilla


**Podemos explorar el csv**... antes de deshacernos de él, :)

Lo podemos ubicar en el navegador de archivos. 
Cuando pasamos el comand -w y f.write() creamos el nuevo csv. 
Lo podemos abrir (porque es un formato de texto plano) directamente en vscode. 

Tip: extensiones clave, Rainbow CSV y CSV. 

In [27]:
#modo bash, con % 

%rm usuarios_ejemplo.csv

#borramos el csv que se generó. 

## De CSV a listas, a diccionarios, a... 


In [None]:
import pandas as pd


#antes teníamos esto: 

# csv_data = """ID,Nombre,Ciudad
# 1,Ana,Madrid
# 2,Luis,Barcelona
# 3,Eva,Valencia
# 4,Juan,Sevilla"""




Podemos generar un archivo CSV (y luego un DataFrame) a partir de diferentes estructuras de datos en Python.

El resultado final al leer el CSV será un DataFrame similar.

**Opción 1: Crear CSV desde una Lista de Listas**


In [31]:
# Los datos como una LISTA, donde cada elemento interno es una fila.
data_list_of_lists = [
    # Nota: No incluimos el encabezado aquí, lo pasamos por separado.
    [1, 'Ana', 'Madrid'],
    [2, 'Luis', 'Barcelona'],
    [3, 'Eva', 'Valencia'],
    [4, 'Juan', 'Sevilla']
]
# Definimos los nombres de las columnas
column_names = ['ID', 'Nombre', 'Ciudad']

# Nombre para este archivo CSV
nombre_archivo_lista_csv = 'usuarios_desde_lista.csv'

df_from_list = pd.DataFrame(data_list_of_lists, columns=column_names)
print(df_from_list.head(2))





   ID Nombre     Ciudad
0   1    Ana     Madrid
1   2   Luis  Barcelona


In [None]:
# Ahora, guardamos este DataFrame en un archivo CSV
# IMPORTANTE: index=False evita que Pandas escriba el índice del DataFrame como una columna en el CSV.


# >>> notar que aparece el archivo nuevo en el navegador de archivos. 

df_from_list.to_csv(nombre_archivo_lista_csv, index=False, encoding='utf-8')




# --- Leer el CSV creado ---
df_leido_desde_lista = pd.read_csv(nombre_archivo_lista_csv)

df_leido_desde_lista

Unnamed: 0,ID,Nombre,Ciudad
0,1,Ana,Madrid
1,2,Luis,Barcelona
2,3,Eva,Valencia
3,4,Juan,Sevilla


## Exploración elemental con Pandas

In [35]:
# --- 4. Exploración básica del DataFrame (Estilo Notebook) ---

print("\nContenido del DataFrame:")
# En una celda de Notebook, simplemente escribir el nombre de la variable
# al final muestra la tabla formateada. También podemos usar display().
display(df_usuarios)

print("\nInformación del DataFrame:")
# .info() imprime directamente un resumen.
df_usuarios.info()

print("\nPrimeras 2 filas:")
# .head() devuelve un DataFrame, que el notebook muestra bien.
display(df_usuarios.head(2))

print("\nColumna 'Nombre':")
# Mostrar una columna (Serie)
display(df_usuarios['Nombre'])






Contenido del DataFrame:


Unnamed: 0,ID,Nombre,Ciudad
0,1,Ana,Madrid
1,2,Luis,Barcelona
2,3,Eva,Valencia
3,4,Juan,Sevilla



Información del DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   ID      4 non-null      int64 
 1   Nombre  4 non-null      object
 2   Ciudad  4 non-null      object
dtypes: int64(1), object(2)
memory usage: 228.0+ bytes

Primeras 2 filas:


Unnamed: 0,ID,Nombre,Ciudad
0,1,Ana,Madrid
1,2,Luis,Barcelona



Columna 'Nombre':


0     Ana
1    Luis
2     Eva
3    Juan
Name: Nombre, dtype: object

El uso de una sola celda, porque lo que corrimos en las celdas de arriba se guarda, entonces no hace falta correr todo de nuevo cada vez...

In [36]:
print("\nPrimera fila (índice 0):")
# Mostrar una fila (Serie)
display(df_usuarios.iloc[0])


Primera fila (índice 0):


ID             1
Nombre       Ana
Ciudad    Madrid
Name: 0, dtype: object

## Crear dataset desde una Lista de Diccionarios

In [None]:

# Los datos como una lista, donde cada diccionario es una fila.
# Las claves del diccionario se usarán como nombres de columna.
data_list_of_dicts = [
    {'ID': 1, 'Nombre': 'Ana', 'Ciudad': 'Madrid'},
    {'ID': 2, 'Nombre': 'Luis', 'Ciudad': 'Barcelona'},
    {'ID': 3, 'Nombre': 'Eva', 'Ciudad': 'Valencia'},
    {'ID': 4, 'Nombre': 'Juan', 'Ciudad': 'Sevilla'}
]

# Nombre para este archivo CSV
nombre_archivo_lista_dict_csv = 'usuarios_desde_lista_dict.csv'

# --- Crear DataFrame y Guardar en CSV ---
# Pandas infiere las columnas directamente de las claves de los diccionarios.
df_from_list_dict = pd.DataFrame(data_list_of_dicts)

display(df_from_list_dict)



DataFrame creado desde la lista de diccionarios:


Unnamed: 0,ID,Nombre,Ciudad
0,1,Ana,Madrid
1,2,Luis,Barcelona
2,3,Eva,Valencia
3,4,Juan,Sevilla


In [39]:
df_from_list_dict

Unnamed: 0,ID,Nombre,Ciudad
0,1,Ana,Madrid
1,2,Luis,Barcelona
2,3,Eva,Valencia
3,4,Juan,Sevilla


In [40]:
print(df_from_list)

   ID Nombre     Ciudad
0   1    Ana     Madrid
1   2   Luis  Barcelona
2   3    Eva   Valencia
3   4   Juan    Sevilla


## Crear dataset desde un Diccionario de Listas (Estructura Semi-Tabular)

In [41]:
# Los datos donde las claves son los nombres de columna y los valores son listas con los datos de esa columna.
data_dict_of_lists = {
    'ID': [1, 2, 3, 4],
    'Nombre': ['Ana', 'Luis', 'Eva', 'Juan'],
    'Ciudad': ['Madrid', 'Barcelona', 'Valencia', 'Sevilla']
}

#ID,Nombre,Ciudad
#1,Ana,Madrid
#2,Luis,Barcelona
#3,Eva,Valencia
#4,Juan,Sevilla

# Nombre para este archivo CSV
nombre_archivo_dict_lista_csv = 'usuarios_desde_dict_lista.csv'

# --- Crear DataFrame y Guardar en CSV ---
# Pandas interpreta directamente las claves como columnas y las listas como sus valores.
df_from_dict_list = pd.DataFrame(data_dict_of_lists)

print("DataFrame creado desde el diccionario de listas:")
display(df_from_dict_list)




DataFrame creado desde el diccionario de listas:


Unnamed: 0,ID,Nombre,Ciudad
0,1,Ana,Madrid
1,2,Luis,Barcelona
2,3,Eva,Valencia
3,4,Juan,Sevilla


## Síntesis

- Podemos cargar datos existentes en texto plano, y transformarlos en un dataset pandas (Pandas DataFrame, df)
- Los datos pueden ser preexistentes, o sea, el csv ya existe
- O podemos crearlos directamente en el código, como hicimos en los ejemplos

**Además**

- Hay diferentes estructuras de datos típicas 
- (0) La tabular (csv, tsv) en texto plano es una de las más frecuentes
- Dentro de python podemos encontrar otras formas de estructurar los datos y luego *traducirlos* a pandas. 
- (1) Listas 
- (2) Diccionarios
- (3) Diccionarios de Listas
    - Vimos la forma que tiene un set de datos idénticos en estas formas de estructurarlos. 






In [42]:
#Tabulares:
data_csv = """ID,Nombre,Ciudad
1,Ana,Madrid
2,Luis,Barcelona
3,Eva,Valencia
4,Juan,Sevilla"""

#Listas: 
data_list_of_lists = [
    [1, 'Ana', 'Madrid'],
    [2, 'Luis', 'Barcelona'],
    [3, 'Eva', 'Valencia'],
    [4, 'Juan', 'Sevilla']
]
column_names = ['ID', 'Nombre', 'Ciudad']

#Diccionarios: 
data_list_of_dicts = [
    {'ID': 1, 'Nombre': 'Ana', 'Ciudad': 'Madrid'},
    {'ID': 2, 'Nombre': 'Luis', 'Ciudad': 'Barcelona'},
    {'ID': 3, 'Nombre': 'Eva', 'Ciudad': 'Valencia'},
    {'ID': 4, 'Nombre': 'Juan', 'Ciudad': 'Sevilla'}
]

#Diccionario de Listas: 
data_dict_of_lists = {
    'ID': [1, 2, 3, 4],
    'Nombre': ['Ana', 'Luis', 'Eva', 'Juan'],
    'Ciudad': ['Madrid', 'Barcelona', 'Valencia', 'Sevilla']
}


---


## Formatos de datos comunes 

![tabla](aux/binarios.png)



Observaciones: los binarios requieren instalación e importación de librerías externas. 

	•	Textos planos se pueden inspeccionar directamente y son editables con cualquier editor.
	•	Binarios requieren herramientas específicas, y su contenido no es interpretable sin decodificación.
	•	Excel .xlsx es técnicamente un archivo ZIP con múltiples archivos XML internos. No es binario puro, pero sí ilegible como texto.
	•	Pickle (.pkl) y Parquet son los más interesantes: pkl guarda estructuras internas de Python directamente (listas, dicts, modelos, etc.), y parquet es un formato optimizado para big data. 


---

## JSON - Diccionarios Anidados, Estructuras Jerárquicas

Los diccionarios pueden contener otros diccionarios (o listas) como valores. Esto crea estructuras anidadas o jerárquicas. La forma común de usarlas es en formato JSON.

Para acceder a elementos dentro de estructuras anidadas, encadenamos el acceso por clave.


Los diccionarios en Python pueden contener otros diccionarios o listas como valores. Esto nos permite crear **estructuras de datos anidadas o jerárquicas**. Este tipo de estructura es fundamental para entender y trabajar con un formato de intercambio de datos muy popular: **JSON**.

### ¿Qué es JSON?

**JSON** son las siglas de **J**ava**S**cript **O**bject **N**otation. Es un formato **ligero** de intercambio de datos, basado en **texto**, que resulta fácil de leer y escribir para los humanos, y fácil de interpretar y generar para las máquinas. Aunque deriva de la sintaxis de los objetos de JavaScript, es un formato **independiente del lenguaje** y es comúnmente utilizado en la web para transmitir datos entre un servidor y un cliente (por ejemplo, en APIs web).

### Estructura de un JSON

Un JSON se basa en dos estructuras principales:

1.  **Objetos**: Representan una colección de pares **clave-valor**.
    *   Comienzan con `{` y terminan con `}`.
    *   Las claves *deben* ser cadenas de texto (entre comillas dobles `"`).
    *   Los valores pueden ser: cadenas de texto (`"`), números (`123`, `3.14`), booleanos (`true`, `false`), `null`, otro objeto JSON (`{...}`) o un array JSON (`[...]`).
    *   Los pares clave-valor se separan por comas `,`.
    *   Ejemplo de objeto: `{"nombre": "Ana", "edad": 30, "ciudad": "Madrid"}`

2.  **Arrays (Listas)**: Representan una lista ordenada de valores.
    *   Comienzan con `[` y terminan con `]`.
    *   Los valores se separan por comas `,`.
    *   Los valores pueden ser de cualquier tipo permitido en JSON (cadenas, números, booleanos, `null`, objetos, otros arrays).
    *   Ejemplo de array: `["manzana", "banana", "cereza"]`

La potencia de JSON radica en que estas estructuras se pueden **anidar**, permitiendo representar datos complejos y jerárquicos.

**Ejemplo de JSON Anidado:**

```json
{
  "id_pedido": "P12345",
  "cliente": {
    "nombre": "Carlos",
    "email": "carlos@ejemplo.com",
    "activo": true
  },
  "productos": [
    {
      "id_producto": "A001",
      "nombre": "Teclado Mecánico",
      "cantidad": 1,
      "precio_unitario": 75.99
    },
    {
      "id_producto": "B002",
      "nombre": "Mouse Óptico",
      "cantidad": 1,
      "precio_unitario": 25.50
    }
  ],
  "total": 101.49,
  "direccion_envio": null
}


In [44]:
import json
# Diccionario anidado simulando datos de usuario en formato JSON
usuario_json_ejemplo = {
    "id": 1001,
    "nombre": "Valentina",
    "ubicacion": {             # Valor es otro diccionario
        "ciudad": "Ushuaia",
        "provincia": "Tierra del Fuego"
    },
    "preferencias": {          # Valor es otro diccionario
        "idioma": "es",
        "notificaciones": True
    }
}
print(f"Diccionario anidado (usuario):\n{json.dumps(usuario_json_ejemplo, indent=2)}") # Usamos json.dumps para imprimirlo bonito

# Tarea: Acceder al nombre de la ciudad y verificar el tipo de 'ubicacion'
# Acceso encadenado: primero 'ubicacion', luego 'ciudad'
ciudad_usuario = usuario_json_ejemplo['ubicacion']['ciudad']
print(f"\nCiudad del usuario: {ciudad_usuario}")

# Verificar el tipo del valor asociado a la clave 'ubicacion'
tipo_ubicacion = type(usuario_json_ejemplo['ubicacion'])
print(f"Tipo del campo 'ubicacion': {tipo_ubicacion}") # Esperamos <class 'dict'>

Diccionario anidado (usuario):
{
  "id": 1001,
  "nombre": "Valentina",
  "ubicacion": {
    "ciudad": "Ushuaia",
    "provincia": "Tierra del Fuego"
  },
  "preferencias": {
    "idioma": "es",
    "notificaciones": true
  }
}

Ciudad del usuario: Ushuaia
Tipo del campo 'ubicacion': <class 'dict'>


**Relevancia:** Muchos sistemas (especialmente APIs web) devuelven datos en formato JSON con estructuras anidadas. Necesitamos saber cómo navegar y extraer la información relevante de ellas, a menudo para "aplanarlas" y convertirlas en tablas.

## Actividad 6: Conversión entre Estructuras Python y JSON

JSON es un formato estándar de texto para el intercambio de datos. Es muy similar a las listas y diccionarios de Python.

La librería `json` de Python nos permite:
*   `json.dumps()`: Convertir un objeto Python (como un `dict` o `list`) en una **cadena de texto** con formato JSON. `dumps` significa "dump string". El argumento `indent` ayuda a que la salida sea legible por humanos.
*   `json.loads()`: Convertir una **cadena de texto** que contiene JSON válido en el objeto Python correspondiente (`dict` o `list`). `loads` significa "load string".

In [None]:
import json 


# 1. Convertir el diccionario 'usuario_json_ejemplo' a una cadena JSON
cadena_json_generada = json.dumps(usuario_json_ejemplo, indent=2) # indent=2 para formato legible
print("Diccionario Python convertido a JSON string (cadena_json_generada):")
print(cadena_json_generada)
print(f"Tipo de cadena_json_generada: {type(cadena_json_generada)}") # Es un string!

# 2. Leer una cadena JSON y convertirla en un diccionario Python
cadena_json_mal = '{"nombre": "Lucas", "edad": 30, "email": "lucas@gmail.com"}' # JSON como string
print(f"\nString JSON a leer (cadena_json_mal): {cadena_json_mal}")
print(f"Tipo de cadena_json_mal: {type(cadena_json_mal)}") # Es un string!

usuario_dict_leido = json.loads(cadena_json_mal)
print(f"\nDiccionario Python recuperado desde JSON (usuario_dict_leido):")
print(usuario_dict_leido)
print(f"Tipo de usuario_dict_leido: {type(usuario_dict_leido)}") # Ahora es un dict!

# Ahora podemos acceder a sus elementos como un diccionario normal
print(f"Email del usuario recuperado: {usuario_dict_leido['email']}")

[31mERROR: Could not find a version that satisfies the requirement json (from versions: none)[0m[31m
[0m[31mERROR: No matching distribution found for json[0m[31m
[0mNote: you may need to restart the kernel to use updated packages.
Diccionario Python convertido a JSON string (cadena_json_generada):
{
  "id": 1001,
  "nombre": "Valentina",
  "ubicacion": {
    "ciudad": "Ushuaia",
    "provincia": "Tierra del Fuego"
  },
  "preferencias": {
    "idioma": "es",
    "notificaciones": true
  }
}
Tipo de cadena_json_generada: <class 'str'>

String JSON a leer (cadena_json_mal): {"nombre": "Lucas", "edad": 30, "email": "lucas@gmail.com"}
Tipo de cadena_json_mal: <class 'str'>

Diccionario Python recuperado desde JSON (usuario_dict_leido):
{'nombre': 'Lucas', 'edad': 30, 'email': 'lucas@gmail.com'}
Tipo de usuario_dict_leido: <class 'dict'>
Email del usuario recuperado: lucas@gmail.com


**Caso de Uso:** Es fundamental al interactuar con APIs web (enviar/recibir datos), guardar configuraciones o almacenar datos semi-estructurados en archivos.

## Nota sobre variables: Tipos de Variables Lógicos vs. Estadísticos

Es importante distinguir entre el **tipo de dato lógico** que Python asigna a una variable (ej: `int`, `str`, `bool`) y la **interpretación estadística** de esa variable en el contexto del análisis de datos.

Tipos Estadísticos Comunes:
*   **Numérica:** Representa cantidades medibles.
    *   **Continua:** Puede tomar cualquier valor dentro de un rango (ej: ingresos, altura). A menudo representadas por `float`.
    *   **Discreta:** Solo puede tomar valores específicos, a menudo enteros (ej: número de hijos, cantidad de productos). A menudo representadas por `int`.
*   **Categórica:** Representa grupos o categorías.
    *   **Nominal:** Categorías sin un orden inherente (ej: sexo, país, color). A menudo representadas por `str`.
    *   **Ordinal:** Categorías con un orden o jerarquía significativa (ej: nivel de satisfacción 'bajo', 'medio', 'alto'; nivel educativo). Pueden representarse por `int` o `str`, pero el orden es clave.
    *   **Dicotómica/Booleana:** Solo dos categorías posibles (ej: sí/no, activo/inactivo, presente/ausente). A menudo representadas por `bool` (`True`/`False`) o `int` (0/1).

**¿Por qué importa?** El tipo estadístico determina qué análisis y visualizaciones son apropiados (ej: no tiene sentido calcular la media de una variable nominal como 'país'). Python no siempre infiere el tipo estadístico correcto; a veces requiere nuestra interpretación.

In [None]:
# Diccionario con ejemplos de variables
variables_tipos = {
    "edad": 27,               # Tipo lógico: int. Tipo estadístico: Numérica (Discreta o Continua según contexto)
    "sexo": "F",              # Tipo lógico: str. Tipo estadístico: Categórica Nominal
    "satisfaccion": 4,        # Tipo lógico: int. Tipo estadístico: Categórica Ordinal (asumiendo escala 1-5)
    "recibe_beneficio": True, # Tipo lógico: bool. Tipo estadístico: Categórica Dicotómica
    "ingreso_mensual": 55000.50 # Tipo lógico: float. Tipo estadístico: Numérica Continua
}

print("Análisis de Tipos Lógicos (Python) y Estadísticos (Interpretación):")
for clave, valor in variables_tipos.items():
    tipo_logico = type(valor)
    tipo_estadistico = "Desconocido"
    
    # Intentamos inferir el tipo estadístico basado en el tipo lógico y el nombre (heurística simple)
    if isinstance(valor, bool):
        tipo_estadistico = "Categórica (Dicotómica/Booleana)"
    elif isinstance(valor, (int, float)):
        if clave == "satisfaccion": # Caso especial basado en el nombre
             tipo_estadistico = "Categórica (Ordinal)"
        elif isinstance(valor, int):
             tipo_estadistico = "Numérica (Discreta)" # Podría ser continua si representa algo medido
        else: # float
             tipo_estadistico = "Numérica (Continua)"
    elif isinstance(valor, str):
        # Podría ser nominal u ordinal, asumimos nominal por defecto
        tipo_estadistico = "Categórica (Nominal)"

    print(f"- Variable '{clave}': Valor={valor}, Tipo Lógico={tipo_logico}, Tipo Estadístico (inferido)={tipo_estadistico}")

**Conclusión:** La inferencia automática tiene límites. La variable `edad` (int) podría ser discreta (años cumplidos) o una aproximación de una continua. La variable `satisfaccion` (int) es claramente ordinal, pero lo sabemos por el *significado* del nombre, no solo por ser `int`. El tipo estadístico correcto a menudo requiere conocimiento del dominio.

**Importancia:** Ser capaz de reconocer y convertir entre estos formatos es esencial. Pandas es excelente para leer datos desde la mayoría de estas estructuras (y más, como archivos Excel, bases de datos, etc.) y unificarlos en un DataFrame.

## Introducción a Pandas: El DataFrame

Pandas introduce el `DataFrame`, una estructura de datos tabular bidimensional, similar a una hoja de cálculo o una tabla SQL. Tiene filas y columnas con etiquetas (índices para filas, nombres para columnas).

Podemos crear un DataFrame fácilmente a partir de las estructuras que vimos, como una lista de diccionarios.

In [None]:
# Crear el DataFrame a partir de la lista de diccionarios 'personas'
df_personas = pd.DataFrame(personas)

print("DataFrame inicial creado desde la lista de diccionarios:")
print(df_personas)

**Observa:** Pandas ha organizado los datos en una tabla. Las claves de los diccionarios se convirtieron en nombres de columna. Los valores faltantes (`None`) y los tipos inconsistentes (como la edad de Juan) se mantienen por ahora. La columna de la izquierda (0, 1, 2, 3) es el **índice** por defecto que Pandas asigna a las filas.

## Manipulación Básica del DataFrame: Añadir Filas y Columnas

Una vez que tenemos un DataFrame, podemos modificarlo.

*   **Añadir Fila:** Se usa `pd.concat()`. Necesitamos convertir la nueva fila (usualmente un diccionario) en un pequeño DataFrame de una fila antes de concatenarlo. `ignore_index=True` re-genera el índice para que sea secuencial.
*   **Añadir Columna:** Es más directo. Simplemente asignamos una lista (o Serie de Pandas) a un nuevo nombre de columna `df['nueva_columna'] = ...`. La lista debe tener la misma longitud que el número de filas del DataFrame.

In [None]:
# Caso 1 – Añadir una nueva fila
nueva_persona = {"nombre": "Santiago", "edad": 35, "sexo": "M"}
# Convertimos el dict en un DataFrame de una fila y concatenamos
df_personas = pd.concat([df_personas, pd.DataFrame([nueva_persona])], ignore_index=True)
print("\nDataFrame después de agregar la fila de Santiago:")
print(df_personas)

# Caso 2 – Añadir una nueva columna 'ocupacion'
# La lista debe tener tantos elementos como filas tenga el DataFrame (ahora 5)
ocupaciones = ["docente", "ingeniero", "enfermera", "administrativo", "abogado"]
df_personas["ocupacion"] = ocupaciones
print("\nDataFrame después de agregar la columna 'ocupacion':")
print(df_personas)

## Conversión DataFrame <-> JSON

Así como creamos un DataFrame desde estructuras Python, también podemos convertirlo de vuelta, por ejemplo, a formato JSON.

1.  Convertir el DataFrame a una **lista de diccionarios**: Usamos el método `.to_dict(orient='records')`. Cada diccionario en la lista representará una fila.
2.  Convertir esa lista de diccionarios a una **cadena JSON**: Usamos `json.dumps()` como antes.

In [None]:
# 1. Convertir el DataFrame a lista de diccionarios
datos_dict_desde_df = df_personas.to_dict(orient="records")
print(f"\nDataFrame convertido a lista de diccionarios:\n{datos_dict_desde_df}")

# 2. Convertir la lista de diccionarios a una cadena JSON
json_str_desde_df = json.dumps(datos_dict_desde_df, indent=2)
print("\nLista de diccionarios convertida a JSON string:")
print(json_str_desde_df)

# Podemos verificar que podemos cargarla de nuevo
datos_recuperados_desde_json = json.loads(json_str_desde_df)
print(f"\nDatos recuperados desde JSON string (primer elemento): {datos_recuperados_desde_json[0]}")

**Fin del Bloque 1.** Hemos cubierto las estructuras de datos básicas de Python relevantes para datos, cómo se relacionan con JSON y cómo dar los primeros pasos con Pandas DataFrames, incluyendo su creación y manipulación elemental.

# BLOQUE 2 – DATOS ESTRUCTURADOS (Integrando MD Bloque 2)

## Actividad 1: Crear DataFrame desde estructura explícita (desde MD y original)

In [None]:
# Generación sintética de estructura tabular con datos homogéneos
clientes = [
    {"id": 1, "nombre": "Ana", "edad": 31, "pais": "Argentina"},
    {"id": 2, "nombre": "Luis", "edad": 28, "pais": "Chile"},
    {"id": 3, "nombre": "Carla", "edad": 42, "pais": "Uruguay"},
    {"id": 4, "nombre": "Juan", "edad": 36, "pais": "Brasil"}
]
df_clientes = pd.DataFrame(clientes)
print("DataFrame 'df_clientes':")
print(df_clientes)

## Actividad 2: Acceso por columnas y por filas (desde MD)

In [None]:
# Acceder a una sola columna -> devuelve una Serie
print("\nColumna 'nombre':")
print(df_clientes["nombre"])

# Acceder a múltiples columnas -> devuelve un DataFrame
print("\nColumnas 'nombre' y 'edad':")
print(df_clientes[["nombre", "edad"]])

# Acceder por posición de fila (iloc)
print(f"\nFila en posición 0 (iloc[0]):\n{df_clientes.iloc[0]}")

# Acceder por condición (filtrado booleano)
print("\nClientes con edad > 30:")
print(df_clientes[df_clientes["edad"] > 30])

## Actividad 3: Información estructural básica (desde MD)

In [None]:
# Ver las dimensiones (filas, columnas)
print(f"\nDimensiones (shape): {df_clientes.shape}")

# Ver los tipos de datos por columna
print("\nTipos de datos (dtypes):")
print(df_clientes.dtypes)

# Ver el resumen general (índice, columnas, no-nulos, dtypes, memoria)
print("\nResumen general (info):")
df_clientes.info()

# Estadísticas descriptivas básicas (sólo para columnas numéricas por defecto)
print("\nEstadísticas descriptivas (describe):")
print(df_clientes.describe())

## Actividad 4: Crear DataFrame desde listas paralelas (desde MD)

In [None]:
# Estructura alternativa: diccionario de listas
nombres_alt = ["Lucía", "Pedro", "Sol", "Mario"]
edades_alt = [24, 39, 27, 45]
paises_alt = ["Bolivia", "Paraguay", "Perú", "Ecuador"]

df_alternativo = pd.DataFrame({
    "nombre": nombres_alt,
    "edad": edades_alt,
    "pais": paises_alt
})
print("DataFrame 'df_alternativo':")
print(df_alternativo)

## Actividad 5: Agregar columna nueva a partir de reglas simples (desde MD)

In [None]:
# Agregar columna booleana que indica si edad > 30
df_alternativo["mayor_30"] = df_alternativo["edad"] > 30
print("DataFrame con columna 'mayor_30':")
print(df_alternativo)

## Actividad 6: Agregar columna calculada (desde MD)

In [None]:
# Supongamos que queremos una columna con doble edad
df_alternativo["edad_doble"] = df_alternativo["edad"] * 2
print("DataFrame con columna 'edad_doble':")
print(df_alternativo)

## Actividad 7: Fila faltante: agregar nuevo registro sintético (desde MD y original)

In [None]:
# Agregar nuevo cliente (similar al original, adaptado a df_alternativo)
nuevo_cliente_alt = {"nombre": "Nora", "edad": 33, "pais": "Colombia", "mayor_30": True, "edad_doble": 66}
df_alternativo = pd.concat([df_alternativo, pd.DataFrame([nuevo_cliente_alt])], ignore_index=True)
print("DataFrame después de agregar a Nora:")
print(df_alternativo)

## Actividad 8: Columna faltante: agregar columna con None o constante (desde MD y original)

In [None]:
# Columna sin valores aún (por ejemplo, ocupación futura)
df_alternativo["ocupacion"] = None # Se llena con None (que pandas maneja como NaN para objetos, o pd.NA)
print("DataFrame con columna 'ocupacion' inicializada a None:")
print(df_alternativo)

# Luego asignar valores de forma manual usando .loc[indice_fila, nombre_columna]
df_alternativo.loc[0, "ocupacion"] = "profesora"
df_alternativo.loc[1, "ocupacion"] = "ingeniero"
# Los demás quedan como None/NaN
print("\nDataFrame con algunos valores asignados en 'ocupacion':")
print(df_alternativo)

# Ejemplo de agregar columna con valor constante (desde agregar_columnas_y_filas.py)
df_alternativo["continente"] = "América del Sur" # Se asigna a todas las filas
print("\nDataFrame con columna 'continente' constante:")
print(df_alternativo)

## Actividad 9: Guardar y leer CSV interno (sin archivos externos) (desde MD)

In [None]:
# Guardar como string simulado de CSV
csv_simulado = df_alternativo.to_csv(index=False) # index=False para no guardar el índice del DF
print("DataFrame convertido a string CSV:")
print(csv_simulado)

# Leer desde string (simulando una carga desde archivo)
# Usamos StringIO para tratar el string como si fuera un archivo
df_desde_csv = pd.read_csv(StringIO(csv_simulado))
print("\nDataFrame leído desde el string CSV:")
print(df_desde_csv)

## Ejemplo Adicional: Agregar filas/columnas (desde agregar_columnas_y_filas.py)

In [None]:
df_add = pd.DataFrame({
    "nombre": ["Ana", "Luis", "Carla"],
    "edad": [28, 34, 25]
})
print("DataFrame inicial 'df_add':")
print(df_add)

# Agregar columna con lista explícita
df_add["provincia"] = ["Tierra del Fuego", "Buenos Aires", "Mendoza"]
print("\n'df_add' con provincia:")
print(df_add)

# Agregar fila como diccionario
nueva_fila_add = {
    "nombre": "Marcos", "edad": 40, "provincia": "Córdoba"
}
df_add = pd.concat([df_add, pd.DataFrame([nueva_fila_add])], ignore_index=True)
print("\n'df_add' con Marcos:")
print(df_add)

# Agregar fila con valores faltantes
otra_fila_add = {
    "nombre": "Lucía", "edad": None, "provincia": None
}
df_add = pd.concat([df_add, pd.DataFrame([otra_fila_add])], ignore_index=True)
print("\n'df_add' con Lucía (con Nones):")
print(df_add)

# BLOQUE 3 – PROBLEMAS EN DATOS ESTRUCTURADOS (Integrando MD Bloque 3)

## Actividad 1: Dataset sintético con errores variados (desde MD y original)

In [None]:
datos_problemas = [
    {"id": 1, "nombre": "Ana", "edad": 31, "ingreso": "20000", "sexo": "F"},
    {"id": 2, "nombre": "Luis", "edad": None, "ingreso": "NaN", "sexo": "M"}, # NaN como string
    {"id": 3, "nombre": "Carla", "edad": -5, "ingreso": "25000", "sexo": "Femenino"}, # Edad inválida, sexo inconsistente
    {"id": 4, "nombre": "Juan", "edad": "cuarenta", "ingreso": "veinte mil", "sexo": "M"}, # Edad e ingreso como texto
    {"id": 5, "nombre": "Ana", "edad": 31, "ingreso": "20000", "sexo": "F"} # Duplicado
]
df_problemas = pd.DataFrame(datos_problemas)
print("DataFrame 'df_problemas' inicial:")
print(df_problemas)
print("\nTipos iniciales:")
print(df_problemas.dtypes) # Notar que edad e ingreso son 'object' (string)

## Actividad 2: Detección de valores faltantes (desde MD)

In [None]:
# Visualizar valores nulos por columna (cuenta los None/NaN verdaderos)
print("Conteo de NaNs por columna (antes de conversión):")
print(df_problemas.isna().sum()) # Solo detecta el None en edad

# Ver todas las filas con al menos un valor nulo (verdadero)
print("\nFilas con algún NaN (antes de conversión):")
print(df_problemas[df_problemas.isna().any(axis=1)])

## Actividad 3: Reemplazar valores faltantes y conversión (desde MD y original)

In [None]:
# Convertir 'edad' a numérico. errors='coerce' transforma lo no convertible en NaN
df_problemas["edad"] = pd.to_numeric(df_problemas["edad"], errors="coerce")
print("\nDataFrame después de convertir 'edad' a numérico (errores son NaN):")
print(df_problemas)
print(f"NaNs en edad ahora: {df_problemas['edad'].isna().sum()}")

# Rellenar edad faltante (NaN) con un valor (ej: media o valor fijo como 35)
# Calculamos la media ignorando los NaN existentes y el valor inválido (-5)
edad_media_valida = df_problemas[(df_problemas["edad"] > 0) & (df_problemas["edad"] < 120)]["edad"].mean()
# df_problemas["edad"] = df_problemas["edad"].fillna(edad_media_valida) # Opción con media
df_problemas["edad"] = df_problemas["edad"].fillna(35) # Opción con valor fijo (como en original)
print("\nDataFrame después de rellenar NaN en 'edad' con 35:")
print(df_problemas)

## Actividad 4: Detección y eliminación de duplicados (desde MD y original)

In [None]:
# Detectar filas duplicadas completas (devuelve Serie booleana)
duplicados_bool = df_problemas.duplicated()
print("\nIndicador de filas duplicadas:")
print(duplicados_bool)
print("\nFilas que son duplicados:")
print(df_problemas[duplicados_bool])

# Eliminar duplicados (conserva la primera aparición por defecto)
df_problemas = df_problemas.drop_duplicates()
print("\nDataFrame después de eliminar duplicados:")
print(df_problemas)

## Actividad 5: Validación de valores imposibles (desde MD)

In [None]:
# Buscar edades fuera de rango lógico (ej: < 0 o > 120)
# Asegurarse que edad sea numérica primero (ya lo hicimos)
print("Filas con edad fuera del rango lógico (0-120):")
print(df_problemas[(df_problemas["edad"] < 0) | (df_problemas["edad"] > 120)])
# Aquí podríamos decidir corregir, eliminar o marcar estas filas.
# Por ejemplo, reemplazar negativos con NaN o un valor imputado:
# df_problemas.loc[df_problemas["edad"] < 0, "edad"] = None # O np.nan

## Actividad 6: Corrección de ingresos mal escritos (desde MD y original)

In [None]:
# Forzar ingreso a numérico, usando NaN donde falle
# 'NaN' string y 'veinte mil' se volverán NaN
df_problemas["ingreso"] = pd.to_numeric(df_problemas["ingreso"], errors="coerce")
print("\nDataFrame después de convertir 'ingreso' a numérico:")
print(df_problemas)
print(f"NaNs en ingreso ahora: {df_problemas['ingreso'].isna().sum()}")

# Rellenar NaN en ingreso con la mediana (más robusta a outliers que la media)
mediana_ingreso = df_problemas["ingreso"].median()
print(f"Mediana del ingreso (para rellenar): {mediana_ingreso}")
df_problemas["ingreso"] = df_problemas["ingreso"].fillna(mediana_ingreso)
print("\nDataFrame después de rellenar NaN en 'ingreso' con la mediana:")
print(df_problemas)

## Actividad 7: Normalización de variables categóricas (desde MD y original)

In [None]:
# Unificación de etiquetas en 'sexo'
# 1. Convertir a minúsculas y quitar espacios extra
df_problemas["sexo"] = df_problemas["sexo"].str.lower().str.strip()
# 2. Reemplazo explícito de valores incorrectos/variantes
df_problemas["sexo"] = df_problemas["sexo"].replace({"femenino": "f", "masculino": "m"})
print("\nDataFrame con columna 'sexo' normalizada:")
print(df_problemas)
print("\nValores únicos en 'sexo' después de normalizar:")
print(df_problemas["sexo"].value_counts())

## Actividad 8: Chequeo final de integridad de tipos (desde MD)

In [None]:
print("Tipos de datos finales:")
print(df_problemas.dtypes)

# Confirmar que 'edad' y 'ingreso' sean numéricos usando assert
# assert df_problemas["edad"].dtype in ["int64", "float64"], "La columna 'edad' no es numérica"
# assert df_problemas["ingreso"].dtype in ["int64", "float64"], "La columna 'ingreso' no es numérica"
# Usamos una comprobación más flexible con pd.api.types
assert pd.api.types.is_numeric_dtype(df_problemas["edad"]), "La columna 'edad' no es numérica"
assert pd.api.types.is_numeric_dtype(df_problemas["ingreso"]), "La columna 'ingreso' no es numérica"
print("\nComprobación de tipos numéricos para 'edad' e 'ingreso' exitosa.")

# BLOQUE 4 – DATOS SEMIESTRUCTURADOS (JSON, anidados) (Integrando MD Bloque 4)

## Actividad 1: Diccionario con estructura anidada simple (desde MD)

In [None]:
usuario_anidado = {
    "id": 101,
    "nombre": "Mariana",
    "contacto": {
        "email": "mariana@example.com",
        "telefono": "2901432001"
    },
    "ubicacion": {
        "ciudad": "Río Grande",
        "provincia": "Tierra del Fuego"
    }
}
print(f"Usuario anidado: {usuario_anidado}")
# Acceso a elementos anidados
print(f"Email de contacto: {usuario_anidado['contacto']['email']}")
print(f"Ciudad de ubicación: {usuario_anidado['ubicacion']['ciudad']}")

## Actividad 2: Lista de entradas con estructura JSON irregular (desde MD y original)

In [None]:
usuarios_irregulares = [
    {
        "id": 1,
        "nombre": "Ana",
        "ubicacion": {"ciudad": "Ushuaia", "pais": "Argentina"},
        "preferencias": {"newsletter": True}
    },
    {
        "id": 2,
        "nombre": "Luis",
        "ubicacion": {"ciudad": "Tolhuin"}, # país faltante
        "preferencias": {} # preferencias vacío
    },
    {
        "id": 3,
        "nombre": "Rosa",
        # ubicación faltante
        "preferencias": {"newsletter": False}
    }
]
print("Lista de usuarios irregulares:")
print(usuarios_irregulares)

## Actividad 3: Convertir lista de JSONs a DataFrame (desde MD)

In [None]:
df_usuarios_irregulares = pd.DataFrame(usuarios_irregulares)
print("DataFrame desde lista irregular (columnas anidadas son dicts):")
print(df_usuarios_irregulares)
print("\nTipos de datos:")
print(df_usuarios_irregulares.dtypes) # 'ubicacion' y 'preferencias' son 'object'

## Actividad 4: Expandir columnas anidadas con pd.json_normalize (desde MD)

In [None]:
# Expande las claves de los diccionarios anidados en nuevas columnas
# 'sep' define el separador entre el nombre original y la clave anidada
df_usuarios_normalizado = pd.json_normalize(usuarios_irregulares, sep='_')
print("DataFrame normalizado con json_normalize:")
print(df_usuarios_normalizado)
# Notar que crea columnas como 'ubicacion_ciudad', 'ubicacion_pais', 'preferencias_newsletter'
# Maneja automáticamente los campos faltantes (resultan en NaN)

## Actividad 5: Convertir campo JSON a texto y volver a estructura (desde MD)

In [None]:
# (Ya cubierto en Bloque 1, Actividad 6, pero reforzamos)
# Convertir un diccionario (usuario_anidado) en texto JSON
json_str_generado = json.dumps(usuario_anidado, indent=2)
print("Diccionario 'usuario_anidado' como JSON string:")
print(json_str_generado)

# Volver de texto a diccionario
usuario_recuperado = json.loads(json_str_generado)
print(f"\nDiccionario recuperado: {usuario_recuperado}")
print(f"Nombre recuperado: {usuario_recuperado['nombre']}")

## Actividad 6: Iterar y extraer elementos faltantes de forma segura (desde MD)

In [None]:
# Verificar si cada entrada tiene clave 'pais' en 'ubicacion' usando .get()
print("Extrayendo país de forma segura:")
for u in usuarios_irregulares:
    # u.get("ubicacion", {}) devuelve {} si "ubicacion" no existe
    # {}.get("pais", "FALTANTE") devuelve "FALTANTE" si "pais" no existe en el dict de ubicacion
    pais = u.get("ubicacion", {}).get("pais", "FALTANTE")
    print(f"{u['nombre']} → país: {pais}")

## Actividad 7: Reconstrucción de estructura regular (Aplanamiento manual) (desde MD y original)

In [None]:
# Crear DataFrame con extracción explícita usando .get para seguridad
registros_planos = []
for u in usuarios_irregulares:
    nombre = u.get("nombre", None) # Aunque nombre siempre está, es buena práctica
    # Acceso anidado seguro
    ubicacion_dict = u.get("ubicacion", {}) # Obtiene dict de ubicación o {} si no existe
    ciudad = ubicacion_dict.get("ciudad", None) # Obtiene ciudad o None
    pais = ubicacion_dict.get("pais", None) # Obtiene pais o None
    # Acceso anidado seguro para preferencias
    preferencias_dict = u.get("preferencias", {})
    newsletter = preferencias_dict.get("newsletter", None) # Obtiene newsletter o None

    registros_planos.append({
        "nombre": nombre,
        "ciudad": ciudad,
        "pais": pais,
        "newsletter": newsletter
    })

df_reconstruido = pd.DataFrame(registros_planos)
print("DataFrame reconstruido manualmente (aplanado):")
print(df_reconstruido)

# BLOQUE 5 – TEXTO NO ESTRUCTURADO (Integrando MD Bloque 5)

## Actividad 1: Dataset sintético con comentarios (desde MD y original)

In [None]:
datos_texto = [
    {"id": 1, "comentario": "Excelente servicio!"},
    {"id": 2, "comentario": "no me gusto el trato"},
    {"id": 3, "comentario": "  MUY bueno  "}, # Espacios extra, mayúsculas
    {"id": 4, "comentario": ""}, # Vacío
    {"id": 5, "comentario": "atención regular, pero volvería"},
    {"id": 6, "comentario": "no ANDUVO bien el sistema"}, # Mayúsculas
    {"id": 7, "comentario": None}, # Nulo
    {"id": 8, "comentario": "funciono bn, pero se tildo"} # Abreviaciones, errores
]
df_texto = pd.DataFrame(datos_texto)
print("DataFrame 'df_texto' inicial:")
print(df_texto)

## Actividad 2: Identificación de campos vacíos o nulos (desde MD)

In [None]:
# Comentarios que son None/NaN
print("Filas con comentario NaN:")
print(df_texto[df_texto["comentario"].isna()])
# Comentarios que son string vacío ""
print("\nFilas con comentario vacío ('') :")
print(df_texto[df_texto["comentario"] == ""])
# Combinado: Nulos o Vacíos
print("\nFilas con comentario NaN o vacío:")
print(df_texto[df_texto["comentario"].isna() | (df_texto["comentario"] == "")])

## Actividad 3: Normalización básica del texto (desde MD y original)

In [None]:
# 1. Rellenar NaN con string vacío para poder aplicar métodos de string
# 2. Eliminar espacios iniciales y finales (.str.strip())
# 3. Pasar a minúsculas (.str.lower())
df_texto["comentario_normalizado"] = df_texto["comentario"].fillna("").str.strip().str.lower()
print("DataFrame con 'comentario_normalizado':")
print(df_texto[["id", "comentario", "comentario_normalizado"]])

## Actividad 4: Búsqueda de patrones simples con str.contains (desde MD)

In [None]:
# Filtrar comentarios normalizados que contienen la palabra "no"
contienen_no = df_texto["comentario_normalizado"].str.contains("no")
print("\nFilas donde 'comentario_normalizado' contiene 'no':")
print(df_texto[contienen_no])

## Actividad 5: Limpieza de signos y puntuación básica (desde MD y original)

In [None]:
# Eliminar caracteres que NO son letras, números o espacios en blanco
# [^\w\s] -> ^ significa 'no', \w significa 'word character' (letras, números, _), \s significa 'whitespace'
# Usamos regex=True
df_texto["comentario_limpio"] = df_texto["comentario_normalizado"].str.replace(r"[^\w\s]", "", regex=True)
print("DataFrame con 'comentario_limpio' (sin puntuación):")
print(df_texto[["id", "comentario_normalizado", "comentario_limpio"]])

## Actividad 6: Análisis de longitud del texto (desde MD y original)

In [None]:
# Longitud de cada comentario limpio
df_texto["longitud"] = df_texto["comentario_limpio"].str.len()
print("DataFrame con longitud del comentario limpio:")
print(df_texto[["id", "comentario_limpio", "longitud"]])

## Actividad 7: Conteo de palabras por fila (desde MD y original)

In [None]:
# 1. Dividir el comentario limpio en palabras (.str.split()) -> genera una lista de palabras
# 2. Aplicar la función len() a cada lista para contar las palabras (.apply(len))
df_texto["palabras"] = df_texto["comentario_limpio"].str.split().apply(len)
print("DataFrame con conteo de palabras:")
print(df_texto[["id", "comentario_limpio", "palabras"]])

## Actividad 8: Detección de abreviaciones o errores comunes (desde MD)

In [None]:
# Detección básica usando regex con OR (|)
# Buscamos 'bn' O 'tildo' O 'anduvo' (corregido de 'andubo') en el comentario limpio
patron_errores = r"bn|tildo|anduvo" # 'anduvo' está bien escrito, quizás buscar 'anduBo'?
# Usemos el ejemplo original: "bn|tildo|andubo" (asumiendo 'andubo' es error)
patron_errores_md = r"bn|tildo|andubo"
errores_comunes = df_texto["comentario_limpio"].str.contains(patron_errores_md, regex=True)
print(f"Filas que contienen patrones '{patron_errores_md}':")
print(df_texto[errores_comunes])

# BLOQUE 6 – DIAGNÓSTICO DE CALIDAD AVANZADO (Integrando MD Bloque 6)

## Actividad 1: Dataset sintético con errores combinados (desde MD y original)

In [None]:
datos_diag = [
    {"id": 1, "edad": 28, "ingreso": 45000, "provincia": "Buenos Aires"},
    {"id": 2, "edad": None, "ingreso": 48000, "provincia": "cordoba"}, # NaN edad, provincia minúscula
    {"id": 3, "edad": 37, "ingreso": "50.000", "provincia": "Mendoza"}, # Ingreso con punto (problema para to_numeric)
    {"id": 4, "edad": -4, "ingreso": None, "provincia": "Córdoba"}, # Edad inválida, NaN ingreso, provincia con tilde
    {"id": 5, "edad": 132, "ingreso": 60000, "provincia": "Neuquén"}, # Edad inválida (outlier)
    {"id": 6, "edad": "treinta", "ingreso": 55000, "provincia": "buenos aires"}, # Edad texto, provincia minúscula y duplicada semántica
    {"id": 7, "edad": 35, "ingreso": "cincuenta mil", "provincia": ""}, # Ingreso texto, provincia vacía
    {"id": 8, "edad": 28, "ingreso": 45000, "provincia": "Buenos Aires"} # Duplicado exacto de fila 1
]
df_diag = pd.DataFrame(datos_diag)
print("DataFrame 'df_diag' inicial:")
print(df_diag)
print("\nTipos iniciales:")
print(df_diag.dtypes)

## Actividad 2: Conteo de valores faltantes por columna (desde MD)

In [None]:
# Antes de cualquier conversión
print("NaNs iniciales (solo detecta None):")
print(df_diag.isna().sum())

## Actividad 3: Validación de tipos y conversión forzada (desde MD y original)

In [None]:
# Pre-procesar ingreso para quitar puntos de miles antes de convertir
df_diag["ingreso"] = df_diag["ingreso"].astype(str).str.replace(".", "", regex=False)

# Forzar edad e ingreso a numérico (errors='coerce')
df_diag["edad"] = pd.to_numeric(df_diag["edad"], errors="coerce")
df_diag["ingreso"] = pd.to_numeric(df_diag["ingreso"], errors="coerce")
print("\nDataFrame después de conversión a numérico:")
print(df_diag)
print("\nTipos después de conversión:")
print(df_diag.dtypes)
print("\nNaNs después de conversión:")
print(df_diag.isna().sum()) # Ahora detecta los que fallaron en la conversión

## Actividad 4: Análisis de distribuciones básicas (Outliers) (desde MD)

In [None]:
# Identificar edades fuera de rango lógico (0-120)
fuera_de_rango = (df_diag["edad"] < 0) | (df_diag["edad"] > 120)
print("Filas con edad fuera del rango (0-120):")
print(df_diag[fuera_de_rango])

## Actividad 5: Diagnóstico de duplicados (desde MD)

In [None]:
duplicados_diag = df_diag.duplicated()
print("Indicador de filas duplicadas:")
print(duplicados_diag)
print("\nFilas que son duplicados:")
print(df_diag[duplicados_diag])
# Podríamos eliminarlos con df_diag = df_diag.drop_duplicates()

## Actividad 6: Frecuencias de variables categóricas (desde MD)

In [None]:
# Estandarización de texto (minúsculas, sin espacios extra) y conteo
# También quitamos tildes para unificar "Córdoba" y "cordoba"
# Podríamos usar una librería como unidecode, o reemplazos manuales simples
df_diag["provincia_norm"] = df_diag["provincia"].fillna("").str.strip().str.lower()
df_diag["provincia_norm"] = df_diag["provincia_norm"].str.replace("á", "a").str.replace("é", "e").str.replace("í", "i").str.replace("ó", "o").str.replace("ú", "u")

# Contar frecuencias, incluyendo NaN/Vacíos (representados por "" ahora)
# dropna=False en value_counts() incluye los NaN si existieran (aquí usamos "" normalizado)
frecuencias_prov = df_diag["provincia_norm"].value_counts(dropna=False)
print("Frecuencia de provincias normalizadas:")
print(frecuencias_prov)

## Actividad 7: Detección de variables constantes o sin variabilidad (desde MD)

In [None]:
# Revisar columnas que podrían no aportar información (ej: si todas tuvieran el mismo valor)
print("Número de valores únicos por columna (incluyendo NaN):")
for col in df_diag.columns:
    # nunique(dropna=False) cuenta valores distintos, incluyendo NaN como uno si existe
    unicos = df_diag[col].nunique(dropna=False)
    print(f"- Columna '{col}': {unicos} valores únicos")
    if unicos <= 1:
        print(f"  -> ¡Atención! Columna constante o vacía.")

## Actividad 8: Reporte cruzado de errores combinados (desde MD)

In [None]:
# Ejemplo: Buscar filas que tengan edad inválida (NaN, <0 o >120) Y TAMBIÉN provincia vacía
condicion_edad_invalida = df_diag["edad"].isna() | (df_diag["edad"] < 0) | (df_diag["edad"] > 120)
condicion_provincia_vacia = df_diag["provincia_norm"] == ""

errores_combinados = df_diag[condicion_edad_invalida & condicion_provincia_vacia]
print("Filas con edad inválida Y provincia vacía:")
print(errores_combinados)
# En este dataset de ejemplo, no hay filas que cumplan ambas condiciones simultáneamente.

## Ejemplo Adicional: Encadenamiento de métodos (desde encadenamientos_basicos_pandas.py)

In [None]:
df_chain = pd.DataFrame({
    "nombre": ["Ana", "Luis", "Carla", "Juan", None],
    "edad": [28, None, -5, 132, 35],
    "ingreso": ["50000", "NaN", "cincuenta mil", "60000", None]
})
print("DataFrame 'df_chain' inicial:")
print(df_chain)

# Encadenamiento: fillna -> str.strip -> str.lower
df_chain["nombre_norm"] = df_chain["nombre"].fillna("").str.strip().str.lower()
print("\nNombre normalizado (encadenado):")
print(df_chain[["nombre", "nombre_norm"]])

# Encadenamiento: to_numeric -> fillna con mediana
df_chain["ingreso_num"] = pd.to_numeric(df_chain["ingreso"], errors="coerce")
mediana_ingreso_chain = df_chain["ingreso_num"].median()
df_chain["ingreso_num"] = df_chain["ingreso_num"].fillna(mediana_ingreso_chain)
print("\nIngreso numérico y relleno (encadenado conceptualmente):")
print(df_chain[["ingreso", "ingreso_num"]])

# Encadenamiento: Filtrar y seleccionar columnas
# Filtrar edad válida (0-120) y seleccionar nombre e ingreso
df_filtrado = df_chain[
    (pd.to_numeric(df_chain["edad"], errors='coerce').fillna(-1) >= 0) &
    (pd.to_numeric(df_chain["edad"], errors='coerce').fillna(999) <= 120)
][["nombre_norm", "ingreso_num"]]
print("\nFiltrado de edad válida y selección de columnas (encadenado):")
print(df_filtrado)

# BLOQUE 7 – VISUALIZACIÓN BÁSICA (Integrando MD Bloque 7)

In [None]:
# Dataset sintético (desde MD y original)
df_vis = pd.DataFrame({
    "edad": [22, 25, 29, 34, 38, 41, 44, 49, 52, 60],
    "sexo": ["F", "M", "F", "F", "M", "F", "M", "F", "M", "F"],
    "ingreso": [35000, 42000, 39000, 47000, 52000, 48000, 51000, 50000, 55000, 59000]
})
print("DataFrame 'df_vis' para visualización:")
print(df_vis)

## Actividad 1: Histograma de una variable numérica (desde MD y original)

In [None]:
df_vis["edad"].plot.hist(bins=5, title="Distribución de edades", edgecolor='black')
plt.xlabel("Edad")
plt.ylabel("Frecuencia")
plt.grid(axis='y', alpha=0.75)
plt.show() # Muestra el gráfico y espera

## Actividad 2: Boxplot para detectar valores extremos (desde MD y original)

In [None]:
df_vis["ingreso"].plot.box(title="Boxplot de ingreso")
plt.ylabel("Ingreso")
plt.grid(axis='y', alpha=0.75)
plt.show()

## Actividad 3: Gráfico de barras de frecuencias (desde MD y original)

In [None]:
# Contar frecuencias y luego graficar
df_vis["sexo"].value_counts().plot.bar(title="Distribución por sexo", rot=0) # rot=0 para etiquetas horizontales
plt.xlabel("Sexo")
plt.ylabel("Frecuencia")
plt.grid(axis='y', alpha=0.75)
plt.show()

## Actividad 4: Gráfico de líneas (simulación temporal) (desde MD y original)

In [None]:
# Supongamos que el índice representa el orden temporal
df_vis["ingreso"].plot.line(title="Evolución del ingreso (simulado)", marker='o')
plt.ylabel("Ingreso")
plt.xlabel("Índice (orden temporal simulado)")
plt.grid(True)
plt.show()

## Actividad 5: Comprobación de distribución conjunta (agregación) (desde MD)

In [None]:
# Agrupación por sexo y cálculo de la media de edad
media_edad_por_sexo = df_vis.groupby("sexo")["edad"].mean()
print("\nMedia de edad por sexo:")
print(media_edad_por_sexo)

# Agrupación por sexo y recuento (tamaño del grupo)
conteo_por_sexo = df_vis.groupby("sexo")["edad"].count() # o .size()
print("\nCantidad de personas por sexo:")
print(conteo_por_sexo)
# Podríamos graficar estas agregaciones también (ej: con .plot.bar())
media_edad_por_sexo.plot.bar(title="Edad Media por Sexo", rot=0)
plt.ylabel("Edad Media")
plt.show()

# BLOQUE 8 – CASO INTEGRADOR (Integrando MD Bloque 8)

In [None]:
# Dataset mixto: respuestas de encuesta (desde MD y original)
respuestas = [
    {
        "id": 1, "nombre": "Ana", "edad": 28, "provincia": "Tierra del Fuego",
        "satisfaccion": 4, "comentario": "Muy buena atención",
        "perfil_json": '{"ingreso_mensual": "50000", "newsletter": true}'
    },
    {
        "id": 2, "nombre": "Luis", "edad": "treinta", "provincia": "buenos aires", # Edad texto, prov minúscula
        "satisfaccion": None, "comentario": "no me gusto el trato", # NaN satisf, comentario negativo
        "perfil_json": '{"ingreso_mensual": "NaN", "newsletter": false}' # Ingreso NaN string
    },
    {
        "id": 3, "nombre": "Rosa", "edad": 41, "provincia": "Cordoba", # Prov sin tilde
        "satisfaccion": 5, "comentario": None, # Comentario NaN
        "perfil_json": '{"ingreso_mensual": "60.000", "newsletter": true}' # Ingreso con punto
    },
    {
        "id": 4, "nombre": "Ana", "edad": 28, "provincia": "Tierra del fuego", # Duplicado semántico, prov minúscula
        "satisfaccion": 4, "comentario": "muy buena atención", # Comentario minúscula
        "perfil_json": '{"ingreso_mensual": "50000", "newsletter": true}' # Duplicado semántico
    },
    {
        "id": 5, "nombre": "Carla", "edad": -3, "provincia": "", # Edad inválida, prov vacía
        "satisfaccion": 3, "comentario": "funciono bn", # Comentario con abreviación
        "perfil_json": '{"ingreso_mensual": "cincuenta mil", "newsletter": true}' # Ingreso texto
    }
]
df_caso = pd.DataFrame(respuestas)
print("DataFrame 'df_caso' inicial:")
print(df_caso)

## Paso 1: Diagnóstico estructural (desde MD)

In [None]:
print("\nInformación general (info):")
df_caso.info()
print("\nConteo de NaNs inicial:")
print(df_caso.isna().sum())
print("\nTipos de datos iniciales:")
print(df_caso.dtypes)

## Paso 2: Revisión de duplicados y valores anómalos (desde MD)

In [None]:
# Revisar duplicados basados en todas las columnas
print(f"\nFilas duplicadas exactas: {df_caso.duplicated().sum()}")
# Revisar duplicados semánticos (ej: Ana, 28 años, TdF) - requiere más lógica
print("\nFilas con edad anómala (NaN, texto, fuera de rango):")
# Convertimos edad a numérico para facilitar la detección
df_caso["edad_num"] = pd.to_numeric(df_caso["edad"], errors="coerce")
print(df_caso[df_caso["edad_num"].isna() | (df_caso["edad_num"] < 0) | (df_caso["edad_num"] > 120)])

## Paso 3: Revisión de valores únicos por categoría (Provincia) (desde MD)

In [None]:
# Normalizar provincia (minúsculas, strip, quitar tildes)
df_caso["provincia_norm"] = df_caso["provincia"].fillna("").str.strip().str.lower()
df_caso["provincia_norm"] = df_caso["provincia_norm"].str.replace("á", "a").str.replace("é", "e").str.replace("í", "i").str.replace("ó", "o").str.replace("ú", "u")
print("\nFrecuencia de provincias normalizadas:")
print(df_caso["provincia_norm"].value_counts(dropna=False)) # dropna=False para ver los vacíos ""

## Paso 4: Inspección básica de comentarios (desde MD y original)

In [None]:
# Normalizar comentarios (fillna, lower, strip)
df_caso["comentario_norm"] = df_caso["comentario"].fillna("").str.strip().str.lower()
print("\nComentarios normalizados (primeros 5):")
print(df_caso["comentario_norm"].head())
print("\nFrecuencia de comentarios normalizados:")
print(df_caso["comentario_norm"].value_counts())

## Paso 5: Extracción de campos anidados desde perfil_json (desde MD y original)

In [None]:
# Convertir la columna 'perfil_json' (string) en diccionarios Python
# Usamos .apply() con una función lambda que llama a json.loads()
# Manejamos posibles errores si algún JSON es inválido (aunque no en este ejemplo)
try:
    df_caso["perfil_dict"] = df_caso["perfil_json"].apply(json.loads)
except json.JSONDecodeError as e:
    print(f"Error al decodificar JSON: {e}")
    # Aquí podríamos manejar el error, ej: asignar None o un dict vacío
    df_caso["perfil_dict"] = None

print("\nDataFrame con 'perfil_dict' (columna de diccionarios):")
print(df_caso[["id", "perfil_dict"]])

# Extraer 'ingreso_mensual' y 'newsletter' de los diccionarios
# Usamos .apply() con lambda y .get() para extraer de forma segura (devuelve None si la clave no existe)
df_caso["ingreso_mensual_str"] = df_caso["perfil_dict"].apply(lambda x: x.get("ingreso_mensual") if isinstance(x, dict) else None)
df_caso["newsletter"] = df_caso["perfil_dict"].apply(lambda x: x.get("newsletter") if isinstance(x, dict) else None)

print("\nDataFrame con campos extraídos ('ingreso_mensual_str', 'newsletter'):")
print(df_caso[["id", "ingreso_mensual_str", "newsletter"]])

## Paso 6: Conversión tentativa a numérico del ingreso (desde MD y original)

In [None]:
# Pre-procesar: quitar puntos, manejar 'NaN' string
df_caso["ingreso_mensual_str"] = df_caso["ingreso_mensual_str"].astype(str).str.replace(".", "", regex=False).str.lower()
# Convertir a numérico, errores a NaN
df_caso["ingreso_mensual_num"] = pd.to_numeric(df_caso["ingreso_mensual_str"], errors="coerce")
print("\nIngreso mensual después de intentar convertir a numérico:")
print(df_caso[["id", "ingreso_mensual_str", "ingreso_mensual_num"]])
print(f"\nNaNs en ingreso mensual numérico: {df_caso['ingreso_mensual_num'].isna().sum()}")
# Aquí podríamos imputar los NaN si fuera necesario (ej: con mediana)

## Paso 7: Limpieza final y Visualización simple (desde MD y original)

In [None]:
# Limpiar/corregir la columna original de edad si es necesario
# df_caso["edad"] = df_caso["edad_num"] # Reemplazar la original
# Eliminar columnas temporales o auxiliares si ya no se necesitan
df_final = df_caso[[
    "id", "nombre", "edad_num", "provincia_norm", "satisfaccion",
    "comentario_norm", "ingreso_mensual_num", "newsletter"
]].copy() # Crear una copia explícita para evitar SettingWithCopyWarning
df_final.rename(columns={ # Renombrar columnas para claridad
    "edad_num": "edad",
    "provincia_norm": "provincia",
    "comentario_norm": "comentario",
    "ingreso_mensual_num": "ingreso_mensual"
}, inplace=True)

print("\nDataFrame final limpio (parcialmente):")
print(df_final)

# Visualización simple de satisfacción y edades (ya convertida a numérica)
print("\nGenerando visualizaciones...")
# Histograma de Satisfacción (ignora NaN por defecto)
df_final["satisfaccion"].plot.hist(bins=5, title="Distribución de Satisfacción", edgecolor='black')
plt.xlabel("Satisfacción (1-5)")
plt.ylabel("Frecuencia")
plt.grid(axis='y', alpha=0.75)
plt.show()

# Boxplot de Edad (ya numérica y con NaN/inválidos manejados)
# Podríamos filtrar los valores inválidos antes de graficar si queremos ver la distribución de los válidos
df_final[df_final["edad"] >= 0]["edad"].plot.box(title="Boxplot de Edad (>=0)")
plt.ylabel("Edad")
plt.grid(axis='y', alpha=0.75)
plt.show()

# Boxplot de Ingreso Mensual (ya numérico)
df_final["ingreso_mensual"].plot.box(title="Boxplot de Ingreso Mensual")
plt.ylabel("Ingreso Mensual")
plt.grid(axis='y', alpha=0.75)
plt.show()

# BLOQUE 9 – CIERRE Y PRÓXIMOS PASOS (Desde original)

In [None]:
etapas_exploradas = [
    "Estructuras básicas (Listas, Dicts, JSON)",
    "Datos estructurados (DataFrames)",
    "Problemas típicos (NaNs, Duplicados, Tipos, Inconsistencias)",
    "Calidad de datos y Diagnóstico",
    "Texto libre (Normalización, Limpieza básica)",
    "Visualización exploratoria básica",
    "Estructuras anidadas (JSON en DataFrames)",
    "Caso completo integrador"
]

print("\nEtapas exploradas en esta sesión:")
for i, e in enumerate(etapas_exploradas, 1):
    print(f"{i}. {e}")

proximos_pasos_kdd = {
    "Selección de variables": "Elegir las características más relevantes para el análisis.",
    "Ingeniería de características": "Crear nuevas variables a partir de las existentes.",
    "Transformación": "Codificación de categóricas, normalización/escalado de numéricas.",
    "Modelado": "Aplicar algoritmos (Clustering, Clasificación, Regresión, etc.).",
    "Evaluación": "Medir el rendimiento de los modelos y validar hallazgos.",
    "Interpretación y Comunicación": "Traducir resultados técnicos a conocimiento accionable."
}

print("\nPróximos pasos en el proceso KDD (Knowledge Discovery in Databases):")
for paso, desc in proximos_pasos_kdd.items():
    print(f"- {paso}: {desc}")

print("\n--- Fin del script ---")