<a href="https://colab.research.google.com/github/hfelizzola/Curso-Ciencia-de-Datos-con-Python/blob/main/1_fundamentos_python/1_fundamentos_pyhton.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Semana 2. Fundamentos de Python para Ciencia de Datos

**Curso:** Ciencia de Datos con Python  
**Semana:** 2  
**Tema:** Fundamentos de Python para Ciencia de Datos  
**Modalidad:** Notebook (teor√≠a + pr√°ctica guiada)

---
## ¬øQu√© aprender√°s hoy?

Al finalizar este notebook podr√°s:

1. Entender y usar correctamente los **tipos de datos** m√°s comunes en Python.
2. Manipular **strings** para limpieza b√°sica de datos.
3. Trabajar con **estructuras de datos** (listas, diccionarios, conjuntos) para representar informaci√≥n.
4. Aplicar **control de flujo** (`if`, `for`) para filtrar y transformar datos.
5. Crear **funciones** reutilizables para automatizar tareas t√≠picas de an√°lisis.
6. Producir un **mini-reporte reproducible** en texto a partir de datos simples.

---

## Prerrequisitos

- Conocer qu√© es una variable y qu√© significa ‚Äúejecutar c√≥digo‚Äù.
- No se requiere experiencia previa con NumPy o pandas (eso inicia la pr√≥xima semana).

---

## Agenda

1. Notebook workflow y reproducibilidad  
2. Variables y tipos de datos  
3. Strings para limpieza b√°sica  
4. Estructuras de datos  
5. Control de flujo  
6. Funciones  
7. Pythonic tools (built-ins + comprehensions)  
8. Caso integrador  
9. Cierre y puente a NumPy/pandas

---

## Reglas de trabajo (importante)

- Ejecuta las celdas **en orden** (de arriba hacia abajo).
- Si algo sale raro, usa: **Kernel ‚Üí Restart & Run All**.
- En los ejercicios, primero intenta t√∫ y luego mira la soluci√≥n.



# 1. Notebook workflow y reproducibilidad

En ciencia de datos, **el c√≥digo no solo debe funcionar**, sino que debe ser:

- **Reproducible**: cualquier persona debe obtener los mismos resultados.
- **Ordenado**: el notebook debe ejecutarse de arriba hacia abajo sin errores.
- **Explicable**: el an√°lisis debe entenderse leyendo el notebook.

En este curso trabajaremos con **Google Colab**, que ejecuta notebooks en la nube.

## 1.1 Tipos de celdas en Google Colab

En Google Colab existen dos tipos principales de celdas:

- **Texto (Markdown)** ‚Üí explicaciones, t√≠tulos, notas.
- **C√≥digo (Python)** ‚Üí instrucciones que se ejecutan.

Atajos √∫tiles:
- **Shift + Enter** ‚Üí ejecutar celda

In [None]:
# Esta es una celda de c√≥digo
print("Hola, Ciencia de Datos")

Hola, Ciencia de Datos


## 1.2 El orden de ejecuci√≥n importa

En Google Colab, las celdas **NO se ejecutan autom√°ticamente en orden**.

El resultado de una celda depende de:
- qu√© celdas se ejecutaron antes,
- en qu√© orden se ejecutaron.

Esto puede producir resultados incorrectos **sin que Colab muestre un error**.


In [None]:
# Definimos primero la variable
x = 10
print("x =", x)

x = 10


In [None]:
# ‚ö†Ô∏è ¬øQu√© pasa si ejecutas esta celda antes de la anterior?
print("x + 5 =", x + 5)

x + 5 = 15


üí° Discusi√≥n: *¬øPor qu√© a veces esta celda funciona y a veces no?*

## 1.3 Runtime en Google Colab

En Colab, la **sesi√≥n** es el entorno donde se ejecuta Python.

Caracter√≠sticas importantes:
- La sesi√≥n **recuerda variables y funciones**.
- Si la sesi√≥n se reinicia, **todo se borra**.
- La sesi√≥n puede desconectarse autom√°ticamente por inactividad.

Men√∫ clave:
**Entorno de ejecuci√≥n ‚Üí Reiniciar la sesi√≥n**

## 1.4 ¬øQu√© significa reproducibilidad en Colab?

Un notebook reproducible en Google Colab cumple:

1. Se ejecuta correctamente desde la **primera celda**.
2. Produce los **mismos resultados** cada vez.
3. No depende de ejecuciones previas ocultas de la sesi√≥n.

Antes de entregar un trabajo en Colab, **siempre** debes:
**Reiniciar entorno de ejecuci√≥n ‚Üí Ejecutar todas las celdas**.


In [None]:
import random

numeros = [random.randint(1, 10) for _ in range(5)]
numeros

[6, 6, 5, 2, 2]

### Controlando la aleatoriedad

Para que los resultados sean reproducibles, debemos **fijar la semilla** del generador aleatorio.


In [None]:
import random
random.seed(42)

numeros = [random.randint(1, 10) for _ in range(5)]
numeros

[2, 1, 5, 4, 4]

Mas adelante veremos otras funciones que permiten fijar la semilla para garantizar la reproducibilidad de los resultados.

## 1.5 Errores comunes en Google Colab

‚ùå Ejecutar celdas al azar  
‚ùå No reiniciar el entorno antes de entregar  
‚ùå Modificar datos sin documentarlo  
‚ùå Resultados que solo funcionan ‚Äúporque ya hab√≠a corrido algo‚Äù

‚úîÔ∏è Ejecutar siempre de arriba hacia abajo  
‚úîÔ∏è Reiniciar runtime antes de entregar  
‚úîÔ∏è Usar Markdown para explicar  
‚úîÔ∏è Fijar semillas cuando hay aleatoriedad


## 1.6 Mini-ejercicio (5 minutos)

1. Ve a **Entorno de ejecuci√≥n ‚Üí Reiniciar entorno de ejecuci√≥n**.
2. Ejecuta **todas las celdas** del notebook en orden.
3. Cambia el valor de `random.seed`.
4. Responde:
   - ¬øQu√© resultados cambian?
   - ¬øCu√°les no deber√≠an cambiar nunca?


# 2. Variables y tipos de datos en Python

En ciencia de datos, **la mayor√≠a de los errores no son matem√°ticos**, sino errores de **tipos de datos**.

Ejemplos reales:
- n√∫meros le√≠dos como texto,
- fechas tratadas como strings,
- valores faltantes mal representados.

Por eso, entender los **tipos de datos b√°sicos de Python** es fundamental.

## 2.1 ¬øQu√© es una variable?

Una **variable** es un nombre que apunta a un valor en memoria.

En Python:
- no se declara el tipo expl√≠citamente,
- el tipo depende del valor asignado,
- el tipo puede cambiar (pero no siempre es buena idea).

Ejemplo:


In [None]:
edad = 21
print(edad)

edad = "21"
print(edad)


21
21


## 2.2 Tipos de datos b√°sicos

Los tipos m√°s usados en ciencia de datos son:

| Tipo | Ejemplo | Uso t√≠pico |
|-----|--------|-----------|
| `int` | `10` | conteos, cantidades |
| `float` | `3.14` | promedios, medidas |
| `bool` | `True`, `False` | condiciones |
| `str` | `"Bogot√°"` | categor√≠as, texto |
| `NoneType` | `None` | valores faltantes |


In [None]:
a = 10
b = 3.5
c = True
d = "Datos"
e = None

print(type(a), type(b), type(c), type(d), type(e))

<class 'int'> <class 'float'> <class 'bool'> <class 'str'> <class 'NoneType'>


## 2.3 `type()` como herramienta de diagn√≥stico

En an√°lisis de datos, `type()` es una de las primeras herramientas
para **detectar problemas en los datos**.


In [None]:
precio = "2500"
cantidad = 4

print(type(precio))
print(type(cantidad))

<class 'str'>
<class 'int'>


### Error com√∫n: operar strings como n√∫meros


In [None]:
precio * cantidad

'2500250025002500'

## 2.4 Conversi√≥n de tipos (casting)

Python permite convertir entre tipos cuando tiene sentido:

- `int()`
- `float()`
- `str()`
- `bool()`


In [None]:
precio = int(precio)
total = precio * cantidad
print("Total:", total)

Total: 10000


## 2.5 El tipo `bool`

`bool` solo puede tomar dos valores:

- `True`
- `False`

Es el tipo base de todas las condiciones (`if`).


In [None]:
edad = 18

print(edad >= 18)
print(edad < 18)

True
False


### Conversi√≥n a `bool` (cuidado)

En Python:
- `0`, `""`, `None` ‚Üí `False`
- casi todo lo dem√°s ‚Üí `True`


In [None]:
bool(0), bool(1), bool(""), bool("A"), bool(None)

(False, True, False, True, False)

## 2.6 Valores faltantes y `None`

En datos reales, los valores faltantes existen.

En Python se representan como:
- `None`

‚ö†Ô∏è `None` **no es** lo mismo que `0` o `""`.


In [None]:
edad = None

print(edad)
print(type(edad))


None
<class 'NoneType'>


### Comparaciones con `None`

Nunca se debe comparar `None` con n√∫meros directamente.


In [None]:
edad > 18


TypeError: '>' not supported between instances of 'NoneType' and 'int'

In [None]:
edad is None

False

## 2.7 Buenas pr√°cticas para nombres de variables

‚úîÔ∏è Usar nombres descriptivos
‚úîÔ∏è Todo en min√∫scula y separados por guion bajo
‚úîÔ∏è Evitar letras sueltas (`x`, `y`) en an√°lisis reales  

Ejemplos correctos:
- `edad_promedio`
- `total_ventas`
- `numero_contratos`


In [None]:
# Ejemplo confuso:
x = 1000
y = 0.19

total = x * y
print(total)

# Ejemplo claro:
valor_total_ventas = 1000
tasa_iva = 0.19

total_con_iva = valor_total_ventas * tasa_iva
print(total_con_iva)


## 2.8 Mini-ejercicio

1. Define una variable `precio_unitario` como string `"3500"`.
2. Define una variable `cantidad` como entero `3`.
3. Convierte `precio_unitario` a entero.
4. Calcula el total.
5. Verifica el tipo del resultado con `type()`.


In [None]:
# Desarrollo mini-ejercicio 2.8


# 3. Strings para limpieza b√°sica de datos

En ciencia de datos, **la limpieza de texto es una de las tareas m√°s frecuentes**.

Problemas comunes en datos reales:
- espacios al inicio o final,
- may√∫sculas y min√∫sculas inconsistentes,
- categor√≠as escritas de distintas formas,
- textos largos dif√≠ciles de interpretar.

Antes de usar pandas o modelos, debemos **limpiar los strings**.

## 3.1 ¬øQu√© es un string?

Un **string** (`str`) es una secuencia de caracteres.

En Python:
- se define con comillas simples `' '` o dobles `" "`,
- es **inmutable** (no se modifica, se crea uno nuevo),
- se puede indexar y recorrer.


In [None]:
ciudad = " Bogot√° "
print(ciudad)
print(type(ciudad))

 Bogot√° 
<class 'str'>


## 3.2 Indexaci√≥n y slicing

Cada car√°cter de un string tiene una posici√≥n (√≠ndice).

- El primer car√°cter est√° en la posici√≥n `0`.
- El √∫ltimo car√°cter puede accederse con `-1`.


In [None]:
texto = "Ciencia de Datos"

print(texto[0])
print(texto[1])
print(texto[-1])

C
i
s


In [None]:
print(texto[0:7]) # Extrae los primeros 7 caracteres
print(texto[:7])  # Extrae los primeros 7 caracteres (la posici√≥n inicial se puede omitir)
print(texto[11:]) # Extrae desde la posici√≥n 11 en adelante


Ciencia
Ciencia
Datos


### Inmutabilidad de los strings

Los strings **no se modifican en el lugar**.

Esto genera muchos errores de principiantes.


In [None]:
nombre = "ana"
nombre.upper()
print(nombre)

ana


In [None]:
nombre = nombre.upper()
print(nombre)

ANA


## 3.3 M√©todos esenciales para limpieza de texto

Los m√©todos m√°s usados en ciencia de datos son:

| M√©todo | ¬øPara qu√© sirve? |
|------|------------------|
| `.strip()` | quitar espacios |
| `.lower()` | pasar a min√∫sculas |
| `.upper()` | pasar a may√∫sculas |
| `.title()` | formato t√≠tulo |
| `.replace()` | reemplazar texto |
| `.split()` | separar texto |
| `.join()` | unir texto |


In [None]:
# Quitar espacios al inicio y final de la cadena
ciudad = "  Medell√≠n  "
ciudad_limpia = ciudad.strip()

print(f"Original: '{ciudad}'")
print(f"Limpia:   '{ciudad_limpia}'")


Original: '  Medell√≠n  '
Limpia:   'Medell√≠n'


In [None]:
categoria = "  bOGotA  "

print(categoria.lower())
print(categoria.upper())
print(categoria.strip().title())

  bogota  
  BOGOTA  
Bogota


### Normalizaci√≥n de categor√≠as

En an√°lisis de datos, normalmente:
- se pasa todo a min√∫sculas o may√∫sculas,
- luego se compara o agrupa.

Esto evita tratar `"Bogot√°"` y `"bogota"` como categor√≠as distintas.


In [None]:
ciudades = ["Bogot√°", " bogota ", "BOGOTA", "Medell√≠n", " medell√≠n"]

ciudades_limpias = []
for c in ciudades:
    ciudades_limpias.append(c.strip().lower())

ciudades_limpias

['bogot√°', 'bogota', 'bogota', 'medell√≠n', 'medell√≠n']

## 3.4 Reemplazo de texto con `.replace()`

Permite corregir errores frecuentes o unificar formatos.


In [None]:
texto = "No aplica / N.A. / no aplica"
texto_limpio = texto.replace("N.A.", "No aplica")

texto_limpio


'No aplica / No aplica / no aplica'

## 3.5 Separar texto con `.split()`

Convierte un string en una lista.


In [None]:
frase = "Ciencia de datos con Python"
palabras = frase.split()

palabras

['Ciencia', 'de', 'datos', 'con', 'Python']

## 3.6 Unir texto con `.join()`

Hace el proceso inverso: unir una lista en un string.


In [None]:
palabras = ["ciencia", "de", "datos"]
frase = " ".join(palabras)

frase

'ciencia de datos'

## 3.7 f-strings para reportes de resultados

Los **f-strings** permiten construir textos claros y legibles
para reportes y salidas finales.


In [None]:
ciudad = "bogota"
total_contratos = 125
promedio_valor = 3.75

print(f"En la ciudad de {ciudad.title()} se analizaron {total_contratos} contratos.")
print(f"El valor promedio fue de {promedio_valor:.2f} millones.")

En la ciudad de Bogota se analizaron 125 contratos.
El valor promedio fue de 3.75 millones.


## 3.8 Mini-ejercicio

Dada la siguiente lista:

```python
nombres = [" ana ", "LUIS", " Mar√≠a", "carlos "]
```

1. Elimina espacios.
2. Convierte todo a formato t√≠tulo.
3. Guarda el resultado en una nueva lista nombres_limpios.

In [None]:
# Desarrollo mini-ejercicio 3.8


# 4. Estructuras de datos esenciales en Python

En ciencia de datos, casi toda la informaci√≥n se representa usando
**estructuras de datos**.

Antes de usar pandas o bases de datos, debemos entender c√≥mo manejar:

- listas,
- tuplas,
- diccionarios,
- conjuntos (sets).

Estas estructuras son la base de:
- tablas,
- archivos JSON,
- respuestas de APIs,
- resultados de modelos.

## 4.1 Listas (`list`)

Una **lista** es una colecci√≥n ordenada de elementos.

Caracter√≠sticas:
- pueden contener distintos tipos,
- mantienen el orden,
- se pueden modificar (son mutables).


In [None]:
edades = [21, 19, 20, 22]
ciudades = ["Bogot√°", "Medell√≠n", "Cali"]

print(edades)
print(ciudades)


[21, 19, 20, 22]
['Bogot√°', 'Medell√≠n', 'Cali']


### Indexaci√≥n y slicing

Las listas se indexan igual que los strings.


In [None]:
print(edades[0])
print(edades[-1])
print(edades[1:3])

21
22
[19, 20]


### Modificar listas

Las listas permiten:
- agregar elementos,
- modificar valores existentes.


In [None]:
print(edades)

# Agregar un valor en la √∫ltima posici√≥n
edades.append(23)
print(edades)

# Modifica el valor de la posici√≥n cero de la lista
edades[0] = 22
print(edades)


[21, 19, 20, 22]
[21, 19, 20, 22, 23]
[22, 19, 20, 22, 23]


## 4.2 Tuplas (`tuple`)

Una **tupla** es una colecci√≥n ordenada **inmutable**.

Se usan cuando:
- los valores no deben cambiar,
- queremos retornar varios valores desde una funci√≥n.


In [None]:
coordenadas = (4.7110, -74.0721)
print(coordenadas)

(4.711, -74.0721)


Las tuplas **no pueden modificarse**.


In [None]:
coordenadas[0] = 5.0

TypeError: 'tuple' object does not support item assignment

## 4.3 Diccionarios (`dict`)

Un **diccionario** almacena pares `clave : valor`.

Es la estructura m√°s importante en ciencia de datos porque:
- representa registros (filas),
- es la base de JSON,
- permite acceso r√°pido por clave.


In [None]:
persona = {
    "nombre": "Ana",
    "edad": 21,
    "ciudad": "Bogot√°"
}

persona

### Acceso a valores en diccionarios

Para acceder a la informaci√≥n de los diccionarios se deben usar las claves (keys)

In [None]:
persona.keys()

In [None]:
persona.values()

In [None]:
print(persona["nombre"])
print(persona["edad"])

NameError: name 'persona' is not defined

‚ö†Ô∏è Error com√∫n: acceder a una clave que no existe.

In [None]:
persona["telefono"]

In [None]:
# Forma segura:
print(persona.get("nombre"))
print(persona.get("edad"))
print(persona.get("ciudad"))
print(persona.get("telefono"))

NameError: name 'persona' is not defined

### Modificar y agregar informaci√≥n


In [None]:
persona["edad"] = 22
persona["telefono"] = "3001234567"

persona


### Iterar sobre diccionarios

Iterar sobre diccionarios es muy com√∫n en an√°lisis de datos.


In [None]:
for clave, valor in persona.items():
    print(clave, "->", valor)

NameError: name 'persona' is not defined

## 4.4 Lista de diccionarios (estructura tipo tabla)

Una forma muy com√∫n de representar datos es:

- cada diccionario = una fila,
- cada clave = una columna.


In [None]:
datos = [
    {"nombre": "Ana", "edad": 21, "ciudad": "Bogot√°"},
    {"nombre": "Luis", "edad": 19, "ciudad": "Medell√≠n"},
    {"nombre": "Mar√≠a", "edad": 20, "ciudad": "Cali"},
]

datos


## 4.5 Sets (`set`)

Un **set** es una colecci√≥n:
- sin orden,
- sin elementos duplicados.

Se usan para:
- eliminar duplicados,
- verificar pertenencia.


In [None]:
ciudades = ["Bogot√°", "Bogot√°", "Cali", "Medell√≠n", "Cali"]
ciudades_unicas = set(ciudades)

ciudades_unicas

{'Bogot√°', 'Cali', 'Medell√≠n'}

### Verificar pertenencia


In [None]:
"Bucaramanga" in ciudades_unicas

False

## 4.6 Mini-ejercicio integrador

Dada la siguiente estructura:

```python
ventas = [
    {"ciudad": "bogota", "valor": 1200},
    {"ciudad": "medellin", "valor": 800},
    {"ciudad": "bogota", "valor": 1500},
]
```

1. Obt√©n las ciudades √∫nicas.
2. Calcula el total de ventas por ciudad.
3. Guarda el resultado en un diccionario.

# 5. Control de flujo aplicado a datos

En ciencia de datos, el **control de flujo** permite:

- filtrar observaciones,
- validar datos,
- aplicar reglas de negocio,
- construir m√©tricas y res√∫menes.

Las estructuras m√°s importantes son:
- `if / elif / else`
- `for`
- (en casos puntuales) `while`


## 5.1 Condicionales (`if`, `elif`, `else`)

Las condiciones permiten **tomar decisiones** seg√∫n el valor de los datos.


In [None]:
edad = 20

if edad >= 18:
    print("Mayor de edad")
else:
    print("Menor de edad")


Mayor de edad


### Condiciones con datos reales

En datos reales:
- puede haber valores faltantes,
- puede haber tipos incorrectos.

Siempre debemos validar antes de comparar.


In [None]:
edad = None

if edad is None:
    print("Edad no reportada")
elif edad >= 18:
    print("Mayor de edad")
else:
    print("Menor de edad")


Edad no reportada


## Error com√∫n: confundir `=` con `==`


In [None]:
# Esto produce error
if edad = 18:
    print("Edad es 18")

SyntaxError: invalid syntax. Maybe you meant '==' or ':=' instead of '='? (ipython-input-1217760873.py, line 2)

## 5.2 Operadores de comparaci√≥n y l√≥gicos

- Comparaci√≥n: `==`, `!=`, `<`, `<=`, `>`, `>=`
- L√≥gicos: `and`, `or`, `not`


In [None]:
edad = 20
ciudad = "Bogot√°"

if edad >= 18 and ciudad == "Bogot√°":
    print("Cumple condiciones")

Cumple condiciones


## 5.3 Bucles `for`

Los bucles permiten **recorrer colecciones de datos**.


In [None]:
edades = [21, 19, 20, 22]

for e in edades:
    print(e)

21
19
20
22


### Filtrado de datos con `for + if`


In [None]:
mayores = []

for e in edades:
    if e >= 21:
        mayores.append(e)

mayores

[21, 22]

## 5.4 Recorrer diccionarios

Muy com√∫n para construir res√∫menes.


In [None]:
persona = {"nombre": "Ana", "edad": 21, "ciudad": "Bogot√°"}

for clave, valor in persona.items():
    print(clave, "‚Üí", valor)

nombre ‚Üí Ana
edad ‚Üí 21
ciudad ‚Üí Bogot√°


## 5.5 Acumuladores (patr√≥n clave)

Un patr√≥n com√∫n en ciencia de datos es:
- iniciar una variable,
- actualizarla dentro de un bucle.

In [None]:
valores = [1200, 800, 1500]

total = 0
for v in valores:
    total += v

total

3500

### Conteos por categor√≠a


In [None]:
ciudades = ["bogota", "medellin", "bogota", "cali", "bogota"]

conteo = {}

for c in ciudades:
    conteo[c] = conteo.get(c, 0) + 1

conteo


{'bogota': 3, 'medellin': 1, 'cali': 1}

## 5.6 `enumerate`

`enumerate` permite acceder al √≠ndice y al valor al mismo tiempo.


In [None]:
nombres = ["Ana", "Luis", "Mar√≠a"]

for i, nombre in enumerate(nombres):
    print(i, nombre)


0 Ana
1 Luis
2 Mar√≠a


## 5.7 `zip`

`zip` permite recorrer varias listas al mismo tiempo.


In [None]:
nombres = ["Ana", "Luis", "Mar√≠a"]
edades = [21, 19, 20]

for nombre, edad in zip(nombres, edades):
    print(nombre, edad)


Ana 21
Luis 19
Mar√≠a 20


## 5.8 Bucle `while`

El `while` se usa cuando:
- no sabemos cu√°ntas iteraciones habr√°,
- depende de una condici√≥n.


In [None]:
contador = 0

while contador < 3:
    print("Iteraci√≥n", contador)
    contador += 1


Iteraci√≥n 0
Iteraci√≥n 1
Iteraci√≥n 2


## 5.9 Mini-ejercicio integrador

Dada la siguiente estructura:

```python
contratos = [
    {"valor": 1200, "estado": "ejecutado"},
    {"valor": 800, "estado": "cancelado"},
    {"valor": 1500, "estado": "ejecutado"},
]
```

1. Suma el valor total de los contratos ejecutados.
2. Cuenta cu√°ntos contratos no est√°n ejecutados.
3. Guarda los resultados en variables claras.

# 6. Funciones en Python para Ciencia de Datos

En ciencia de datos, **las funciones son esenciales** para:

- evitar repetir c√≥digo,
- estructurar an√°lisis largos,
- documentar l√≥gica de negocio,
- hacer el c√≥digo m√°s legible y mantenible.

Un an√°lisis serio **no puede ser solo una secuencia de celdas largas**.

## 6.1 ¬øQu√© es una funci√≥n?

Una **funci√≥n** es un bloque de c√≥digo que:

- recibe entradas (par√°metros),
- ejecuta una tarea,
- devuelve un resultado (`return`).

Una vez definida, puede reutilizarse muchas veces.


In [None]:
def saludar():
    print("Hola desde una funci√≥n")

saludar()

Hola desde una funci√≥n


## 6.2 Funciones con par√°metros

Las funciones pueden recibir informaci√≥n de entrada.


In [None]:
def saludar_persona(nombre):
    print(f"Hola {nombre}")

saludar_persona("Ana")
saludar_persona("Luis")


Hola Ana
Hola Luis


## 6.3 `return`: devolver resultados

En ciencia de datos, casi siempre queremos que
las funciones **devuelvan resultados**, no solo impriman.


In [None]:
def calcular_total(precio, cantidad):
    total = precio * cantidad
    return total

resultado = calcular_total(3500, 3)
resultado


10500

## 6.4 Funciones puras (buena pr√°ctica)

Una **funci√≥n pura**:
- depende solo de sus argumentos,
- no modifica variables externas,
- siempre produce el mismo resultado con los mismos inputs.

Este tipo de funciones es ideal para an√°lisis reproducibles.


In [None]:
def promedio(valores):
    return sum(valores) / len(valores)

promedio([10, 20, 30])

20.0

## 6.5 Argumentos por defecto

Permiten definir valores ‚Äúpor defecto‚Äù para par√°metros opcionales.


In [None]:
def aplicar_iva(valor, tasa=0.19):
    return valor * (1 + tasa)

print(aplicar_iva(1000))
print(aplicar_iva(1000, 0.05))

1190.0
1050.0


## 6.6 Validaci√≥n de datos dentro de funciones

En ciencia de datos, una funci√≥n **debe validar sus entradas**.


In [None]:
def promedio_seguro(valores):
    if not valores:
        return None
    return sum(valores) / len(valores)

print(promedio_seguro([]))
print(promedio_seguro([10, 20, 30]))


None
20.0


## 6.7 Documentar funciones con docstrings

Las **docstrings** explican:
- qu√© hace la funci√≥n,
- qu√© recibe,
- qu√© devuelve.

Son esenciales en proyectos reales.


In [None]:
def limpiar_texto(texto):
    """
    Limpia un texto eliminando espacios y normalizando a min√∫sculas.

    Par√°metros
    ----------
    texto : str
        Texto de entrada.

    Retorna
    -------
    str
        Texto limpio.
    """
    return texto.strip().lower()

limpiar_texto("  Bogot√Å ")


'bogot√°'

In [None]:
help(limpiar_texto)

Help on function limpiar_texto in module __main__:

limpiar_texto(texto)
    Limpia un texto eliminando espacios y normalizando a min√∫sculas.

    Par√°metros
    ----------
    texto : str
        Texto de entrada.

    Retorna
    -------
    str
        Texto limpio.



## 6.8 Retornar m√∫ltiples valores

Python permite retornar varios valores usando tuplas.


In [None]:
def resumen_numerico(valores):
    return min(valores), max(valores), sum(valores) / len(valores)

minimo, maximo, promedio = resumen_numerico([10, 20, 30])
minimo, maximo, promedio


(10, 30, 20.0)

## 6.9 Mini-ejercicio integrador

Crea una funci√≥n llamada `total_por_ciudad` que:

1. Reciba una lista de diccionarios con claves `"ciudad"` y `"valor"`.
2. Calcule el total de valores por ciudad.
3. Retorne un diccionario con el resultado.

*Pista: usa un diccionario acumulador.*


# 7. Pythonic tools: built-ins y comprehensions

Python ofrece muchas herramientas **integradas (built-ins)** que permiten
resolver problemas comunes de ciencia de datos con **menos c√≥digo y mayor claridad**.

Usar estas herramientas:
- hace el c√≥digo m√°s legible,
- reduce errores,
- facilita el paso a pandas y NumPy.

## 7.1 Built-ins m√°s usados en ciencia de datos

Algunas funciones integradas de Python que usar√°s constantemente:

- `len()` ‚Üí tama√±o de una colecci√≥n (lista, diccionario, tupla, set)
- `sum()` ‚Üí suma de valores
- `min()`, `max()` ‚Üí extremos
- `sorted()` ‚Üí ordenar
- `any()`, `all()` ‚Üí validaciones l√≥gicas


In [None]:
valores = [10, 20, 30, 40]

len(valores), sum(valores), min(valores), max(valores)


(4, 100, 10, 40)

## 7.2 Ordenar datos con `sorted()`

`sorted()` **no modifica** la lista original.


In [None]:
valores = [30, 10, 40, 20]

ordenados = sorted(valores)
valores, ordenados


([30, 10, 40, 20], [10, 20, 30, 40])

## 7.3 Validaciones con `any()` y `all()`

Muy √∫tiles para verificar reglas sobre los datos.


In [None]:
edades = [21, 19, 20, 22]

print(any(e < 18 for e in edades))   # ¬øhay alg√∫n menor de edad?
print(all(e >= 18 for e in edades))  # ¬øtodos son mayores de edad?


False
True


## 7.4 List comprehensions

Las **list comprehensions** permiten crear listas de forma compacta.

Sintaxis general:

```python
[nueva_expresi√≥n for elemento in colecci√≥n if condici√≥n]


In [None]:
potencias = [x**2 for x in range(10)]
potencias

[0, 1, 4, 9, 16, 25, 36, 49, 64, 81]

In [None]:
edades = [21, 19, 20, 22]

mayores = [e for e in edades if e >= 21]
mayores


[21, 22]

## 7.5 Comprensiones con strings

Muy comunes en limpieza de texto.


In [None]:
# p1:p10
["p" + str(i) for i in range(1, 11)]

['p1', 'p2', 'p3', 'p4', 'p5', 'p6', 'p7', 'p8', 'p9', 'p10']

In [None]:
nombres = [" ana ", "LUIS", " Mar√≠a", "carlos "]

nombres_limpios = [n.strip().title() for n in nombres]
nombres_limpios


['Ana', 'Luis', 'Mar√≠a', 'Carlos']

## 7.6 Dict comprehensions

Permiten crear diccionarios de forma compacta.


In [None]:
ventas = [
    {"ciudad": "bogota", "valor": 1200},
    {"ciudad": "medellin", "valor": 800},
    {"ciudad": "bogota", "valor": 1500},
]

totales = {}

for v in ventas:
    ciudad = v["ciudad"]
    totales[ciudad] = totales.get(ciudad, 0) + v["valor"]

totales


{'bogota': 2700, 'medellin': 800}

In [None]:
totales = {
    ciudad: sum(v["valor"] for v in ventas if v["ciudad"] == ciudad)
    for ciudad in set(v["ciudad"] for v in ventas)
}

totales

{'bogota': 2700, 'medellin': 800}

## 7.7 ¬øCu√°ndo NO usar comprehensions?

No todo debe ser una comprehension.

Evita comprehensions cuando:
- la l√≥gica es muy compleja,
- hay muchas condiciones,
- afecta la legibilidad.

La **claridad** es m√°s importante que escribir menos l√≠neas.


## 7.8 Mini-ejercicio integrador

Dada la siguiente lista:

```python
valores = [1200, 800, 1500, 500, 2000]
```

1. Calcula el promedio usando `sum()` y `len()`.
2. Crea una lista con los valores mayores al promedio usando comprehension.
3. Verifica con `all()` si todos los valores son mayores a 0.

# 8. Mini-caso integrador: An√°lisis exploratorio b√°sico con Python

En esta secci√≥n integraremos todo lo aprendido hasta ahora para realizar
un **an√°lisis exploratorio b√°sico**, usando √∫nicamente Python base
(sin pandas ni NumPy).

El objetivo es que comprendas **qu√© hace pandas por debajo** antes de usarlo.


## Contexto

Se cuenta con informaci√≥n simplificada de **contratos de obra p√∫blica**
registrados por diferentes municipios.

Cada contrato tiene:
- un identificador,
- un municipio,
- un valor del contrato,
- un estado del contrato.

‚ö†Ô∏è Los datos **no est√°n limpios** y presentan problemas t√≠picos del mundo real.


In [None]:
contratos = [
    {"id": "C001", "municipio": " bogota ", "valor": "1200000", "estado": "EJECUTADO"},
    {"id": "C002", "municipio": "Bogot√°", "valor": "800000", "estado": "cancelado"},
    {"id": "C003", "municipio": "MEDELLIN", "valor": "1500000", "estado": "ejecutado"},
    {"id": "C004", "municipio": " bogota", "valor": "950000", "estado": "EJECUTADO"},
    {"id": "C005", "municipio": "Medell√≠n ", "valor": "1100000", "estado": "ejecutado"},
]


## Objetivos anal√≠ticos

1. Limpiar y normalizar los datos.
2. Convertir los tipos de datos correctamente.
3. Filtrar contratos ejecutados.
4. Calcular m√©tricas descriptivas b√°sicas.
5. Generar un resumen anal√≠tico legible.

Este flujo es equivalente a un **EDA inicial**.


## Paso 1: Limpieza y normalizaci√≥n de los datos

Tareas:
- normalizar el nombre del municipio,
- convertir el valor a num√©rico,
- normalizar el estado del contrato.


In [None]:
# Paso 1.


## Paso 2: Validaci√≥n r√°pida

Verificamos:
- tipos de datos,
- valores faltantes,
- estructura general.


In [None]:
#¬†Paso 2.

## Paso 3: Filtrado anal√≠tico

Nos enfocamos √∫nicamente en contratos **ejecutados**.


In [None]:
# Paso 3.

## Paso 4: M√©tricas descriptivas b√°sicas

Calcularemos:
- n√∫mero de contratos ejecutados,
- valor total ejecutado,
- valor promedio por contrato.


In [None]:
# Paso 4


## Paso 5: An√°lisis por municipio

Calcularemos el valor total ejecutado por municipio.

In [None]:
#¬†Paso 5.


## Paso 6: Resumen anal√≠tico

Presentamos los resultados en formato legible para un reporte.


In [None]:
# Paso 6.
