# üß∞ **Estructuras de Datos en Python**

En esta sesi√≥n exploraremos **las estructuras de datos fundamentales de Python**, las cuales son la base para procesar, transformar y analizar datos de forma eficiente antes de usar herramientas m√°s complejas como `pandas`, `NumPy` o `scikit-learn`.

### üöÄ **Introducci√≥n**

#### ‚ùì **¬øPor qu√© son tan importantes estas estructuras en Ciencia de Datos?**

Aunque en Ciencia de Datos usamos librer√≠as especializadas como `pandas` o `NumPy`, todas estas se apoyan internamente en estructuras nativas de Python para funcionar. Adem√°s:

- üì¶ **Listas y diccionarios** son estructuras de datos **esenciales para organizar y manipular datos crudos** provenientes de APIs, archivos CSV, JSON, o bases de datos.
- üîê **Tuplas** son √∫tiles para **datos inmutables**, que no deben cambiar, como coordenadas geogr√°ficas, claves de diccionarios o configuraciones fijas.
- üîÅ **Conjuntos** permiten **eliminar duplicados**, hacer intersecciones y verificar membres√≠as r√°pidamente.
- üìä **`pandas.DataFrame`** extiende todas estas capacidades, pero es clave **comprender bien las estructuras b√°sicas antes de entrar a `pandas`**.

Aprender estas estructuras no solo mejora tu l√≥gica como programador, sino que adem√°s:

- üîç Mejora tu capacidad de **limpiar, transformar y explorar datos manualmente**.
- ‚ö° Te permite escribir c√≥digo m√°s **eficiente, claro y escalable**.
- üõ†Ô∏è Te da herramientas para **debuggear** y entender errores al usar librer√≠as externas.

#### üß≠ **Estructura de la sesi√≥n**


A continuaci√≥n, vamos a recorrer cada una de las estructuras de datos m√°s relevantes en Python:

| Estructura   | Tipo       | Mutabilidad | Aplicaciones en Ciencia de Datos |
|--------------|------------|-------------|----------------------------------|
| `list`       | Secuencia  | Mutable     | Recorrer elementos, limpieza, preparaci√≥n |
| `tuple`      | Secuencia  | Inmutable   | Configuraciones, coordenadas, claves |
| `dict`       | Mapeo      | Mutable     | Datos estructurados, JSON, filas de datos |
| `set`        | Colecci√≥n  | Mutable     | Unicidad, limpieza, operaciones de conjunto |
| `DataFrame`  | Tabla      | Mutable     | An√°lisis, estad√≠sticas, modelado |

### üß± **Estructuras de Datos Fundamentales**

Ahora que ya entendemos la importancia de las estructuras de datos en Python y su rol dentro de la Ciencia de Datos, es momento de **explorarlas de forma pr√°ctica**.  

A lo largo de esta secci√≥n, conoceremos y trabajaremos con las estructuras m√°s utilizadas en Python para manejar y transformar datos:

- üìã Listas (`list`)
- üîê Tuplas (`tuple`)
- üóÇÔ∏è Diccionarios (`dict`)
- ‚ôªÔ∏è Conjuntos (`set`)
- üìä Dataframes (`pandas.DataFrame`)

Cada una de estas estructuras tiene propiedades espec√≠ficas que las hacen √∫tiles en diferentes etapas del an√°lisis de datos: desde la recolecci√≥n y limpieza hasta el modelado y visualizaci√≥n.

üîç **Vamos a ver c√≥mo se crean, c√≥mo se manipulan y c√≥mo se integran en tareas reales de Ciencia de Datos.**

#### üìã **Listas (`list`)**

In [None]:
# Definici√≥n: colecci√≥n ordenada y mutable
lista = [10, 20, 30, 40, 50]

In [None]:
# Indexaci√≥n y slicing
primer_elemento = lista[0]
ultimos_dos = lista[-2:]

In [None]:
# M√©todos comunes
lista.append(60)           # Agrega un elemento al final
lista.insert(2, 25)        # Inserta 25 en la posici√≥n 2
lista.remove(40)           # Elimina el primer 40
valor_eliminado = lista.pop()  # Elimina y devuelve el √∫ltimo valor
lista.sort()               # Ordena la lista en su lugar
lista.reverse()            # Invierte el orden de la lista

In [None]:
# Iteraci√≥n
for elemento in lista:
    print(f"Elemento: {elemento}")

In [None]:
# List comprehension
cuadrados = [x**2 for x in range(6)]
cuadrados

#### üîê **Tuplas (`tuple`)**

In [None]:
# Definici√≥n: colecci√≥n ordenada e inmutable
tupla = (1, 2, 3, 4)

In [None]:
# Indexaci√≥n
segundo = tupla[1]

In [None]:
# Desempaquetado
a, b, c, d = tupla

In [None]:
# Tuplas anidadas
coordenadas = ((1, 2), (3, 4))

#### üóÇÔ∏è **Diccionarios (`dict`)**

In [None]:
# Definici√≥n: colecci√≥n no ordenada de pares clave-valor, mutable
persona = {
    "nombre": "Ana",
    "edad": 28,
    "ciudad": "Bogot√°"
}

In [None]:
# Acceso
nombre = persona["nombre"]
edad = persona.get("edad")  # Mejor para evitar errores si no existe la clave

In [None]:
# M√©todos comunes
persona["profesi√≥n"] = "Ingeniera"  # A√±adir clave
persona.update({"edad": 29})        # Actualizar clave existente
profesion = persona.pop("profesi√≥n") # Eliminar y devolver valor

In [None]:
# Claves, valores, items
claves = list(persona.keys())
valores = list(persona.values())
items = list(persona.items())

In [None]:
# Iteraci√≥n
for clave, valor in persona.items():
    print(f"{clave}: {valor}")

In [None]:
# Diccionario por comprensi√≥n
cuadrados_dict = {x: x**2 for x in range(5)}
cuadrados_dict

#### ‚ôªÔ∏è **Conjuntos (`set`)**

In [None]:
# Definici√≥n: colecci√≥n no ordenada de elementos √∫nicos
conjunto = {1, 2, 3, 4, 5}
conjunto2 = {4, 5, 6, 7}

In [None]:
# M√©todos
conjunto.add(6)
conjunto.remove(1)

In [None]:
# Operaciones de conjuntos
union = conjunto | conjunto2
interseccion = conjunto & conjunto2
diferencia = conjunto - conjunto2
diferencia_simetrica = conjunto ^ conjunto2

In [None]:
# Iteraci√≥n
for elem in conjunto:
    print(f"Elemento √∫nico: {elem}")

#### üìä **Dataframe (`pandas.DataFrame`)**

In [None]:
# Importaci√≥n de la Librer√≠a
import pandas as pd

In [None]:
# Crear DataFrame desde un diccionario
datos = {
    "Nombre": ["Ana", "Luis", "Carlos", "Sof√≠a"],
    "Edad": [28, 34, 25, 29],
    "Ciudad": ["Bogot√°", "Medell√≠n", "Cali", "Barranquilla"]
}
df = pd.DataFrame(datos)

In [None]:
# Exploraci√≥n
print(df.head())       # Primeras filas
print(df.info())       # Informaci√≥n general
print(df.describe())   # Estad√≠sticas de columnas num√©ricas

In [None]:
# Acceso a columnas
edades = df["Edad"]

In [None]:
# Acceso a columnas
edades = df["Edad"]

In [None]:
# Acceso a filas
primera_fila = df.loc[0]        # por etiqueta
segunda_fila = df.iloc[1]       # por posici√≥n

In [None]:
# Filtro de filas
mayores_30 = df[df["Edad"] > 30]

In [None]:
# Agregar columna
df["MayorEdad"] = df["Edad"] >= 30

In [None]:
# Eliminar columna
df = df.drop(columns=["MayorEdad"])

In [None]:
# Iteraci√≥n b√°sica (no recomendable en grandes vol√∫menes)
for index, fila in df.iterrows():
    print(f"{fila['Nombre']} vive en {fila['Ciudad']}")

In [None]:
# Operaciones vectorizadas
df["EdadDoble"] = df["Edad"] * 2