<a href="https://colab.research.google.com/github/pabanib/Cursos/blob/master/Introducci%C3%B3n_a_Python.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Introducción a Python para Ciencia de Datos
¡Bienvenido/a a esta introducción intensiva a Python enfocado en la Ciencia de Datos!. Cubriremos los fundamentos esenciales que necesitas para empezar a trabajar con datos usando Python.

**¿Por qué Python para Ciencia de Datos?**

Python se ha convertido en el lenguaje de programación dominante en el mundo de la Ciencia de Datos y el Machine Learning por varias razones:

* **Sintaxis Sencilla:** Es relativamente fácil de leer y escribir, lo que lo hace ideal para empezar.
* **Gran Ecosistema de Bibliotecas:** Existen bibliotecas increíblemente poderosas y optimizadas para tareas de datos como `Numpy`, `Pandas`, `Matplotlib`, `Seaborn`, `Scikit-learn`, etc. Hoy veremos las fundamentales.
* **Comunidad Activa:** Hay una enorme comunidad global que ofrece soporte, tutoriales y desarrolla nuevas herramientas constantemente.
* **Versatilidad:** Python no solo sirve para datos, sino también para desarrollo web, automatización y mucho más.

# ¿Qué es Google Colab?

Estás usando Google Colaboratory (o "Colab"). Es un entorno basado en la nube que te permite escribir y ejecutar código Python directamente en tu navegador. Piensa en él como un cuaderno digital interactivo.

**Conceptos Clave de Colab:**

* **Celdas:** El notebook se compone de celdas. Hay dos tipos principales:
    * **Celdas de Texto (Markdown):** Como esta que estás leyendo. Contienen texto formateado, explicaciones, imágenes, etc.
    * **Celdas de Código (Python):** Contienen código Python que puedes ejecutar. Verás ejemplos pronto.
* **Ejecutar Celdas:** Para ejecutar una celda de código y ver su resultado, selecciónala haciendo clic en ella y presiona `Shift + Enter`. También puedes hacer clic en el botón de "Play" (▶️) que aparece a la izquierda de la celda.
* **Crear Celdas:** Puedes añadir nuevas celdas usando los botones `+ Código` y `+ Texto` que aparecen en la barra de herramientas superior o al pasar el ratón entre celdas existentes.
* **Orden de Ejecución:** El código se ejecuta en el orden en que ejecutas las celdas. Si una celda depende de una variable creada en una celda anterior, asegúrate de ejecutar la celda anterior primero.

# Markdown Básico en Colab

Las celdas de texto usan un lenguaje de formato llamado Markdown. Es muy sencillo. Aquí tienes algunos ejemplos básicos:

* **Títulos:** Usa el símbolo `#` al principio de la línea. Más `#` significan títulos de menor nivel:
    ```
    # Título Principal (Nivel 1)
    ## Subtítulo (Nivel 2)
    ### Sub-subtítulo (Nivel 3)
    ```
* **Negrita:** Envuelve el texto con dos asteriscos `**texto en negrita**` o dos guiones bajos `__texto en negrita__`. Ejemplo: **Esto es importante**.
* **Cursiva:** Envuelve el texto con un asterisco `*texto en cursiva*` o un guion bajo `_texto en cursiva_`. Ejemplo: *Esto es énfasis*.
* **Listas:**
    * No ordenadas: Empieza la línea con `-` o `*`.
        ```
        - Elemento 1
        - Elemento 2
          * Subelemento A
        ```
    * Ordenadas: Empieza la línea con un número seguido de un punto `1.`.
        ```
        1. Primer paso
        2. Segundo paso
        ```
* **Enlaces:** `[Texto visible](URL)` Ejemplo: [Google](https://www.google.com)

¡No necesitas memorizar esto ahora, pero es útil saber que existe!

# 2. Fundamentos del Lenguaje Python

Empecemos con los bloques de construcción básicos de Python.

## Tipos de Datos Primitivos

Son los tipos de datos más fundamentales.

### Enteros (`int`)

Representan números enteros (sin decimales).

In [None]:
# Ejemplo de un entero
edad = 30
print(edad) # Muestra el valor de la variable
print(type(edad)) # Muestra el tipo de dato de la variable

### Flotantes (`float`)

Representan números con decimales. Se usa el punto `.` como separador decimal.

In [None]:
# Ejemplo de un flotante
precio = 99.95
print(precio)
print(type(precio))

### Cadenas de Texto (`str`)

Representan secuencias de caracteres (texto). Se definen usando comillas simples `'...'` o dobles `"..."`.

Las **f-strings** (cadenas formateadas) son una forma muy útil y moderna de incluir el valor de variables dentro de una cadena. Se marcan con una `f` antes de las comillas y las variables se ponen entre llaves `{}`.

In [None]:
# Ejemplo de strings
nombre = "Ana"
saludo = 'Hola'
mensaje_completo = f"{saludo}, {nombre}! Tu edad es {edad}." # Usando f-string

print(nombre)
print(type(nombre))
print(mensaje_completo)

# Concatenación (unir strings)
frase = saludo + " " + nombre + "."
print(frase)

In [None]:
# Ejercicio Práctico: Strings
# 1. Crea una variable 'ciudad' con el nombre de tu ciudad.
# 2. Crea una variable 'pais' con el nombre de tu país.
# 3. Usando una f-string, crea una variable 'ubicacion' que diga "Vivo en [ciudad], [pais]."
# 4. Imprime la variable 'ubicacion'.

### Booleanos (`bool`)

Representan valores de verdad: `True` (Verdadero) o `False` (Falso). Son el resultado de comparaciones.

**Operadores de Comparación Comunes:**
* `==` : Igual a
* `!=` : Diferente de
* `>`  : Mayor que
* `<`  : Menor que
* `>=` : Mayor o igual que
* `<=` : Menor o igual que

In [None]:
# Ejemplo de booleanos
es_mayor_de_edad = edad >= 18
es_menor_de_edad = edad < 18
precios_iguales = precio == 99.95

print(f"¿Es mayor de edad? {es_mayor_de_edad}")
print(type(es_mayor_de_edad))
print(f"¿Es menor de edad? {es_menor_de_edad}")
print(f"¿El precio es 99.95? {precios_iguales}")

comparacion = 5 > 10
print(f"¿Es 5 mayor que 10? {comparacion}")

## Variables

Una variable es como una etiqueta que le pones a un valor para poder referirte a él más tarde.

* **Declaración y Asignación:** Se usa el signo igual `=` para asignar un valor a un nombre de variable. El nombre debe empezar por una letra o guion bajo `_` y no puede contener espacios ni caracteres especiales (excepto `_`). Python distingue entre mayúsculas y minúsculas (`edad` es diferente de `Edad`).

In [None]:
# Asignación de variables (ya lo hemos estado haciendo!)
mi_variable = "Este es un valor"
numero = 100
pi = 3.14159
print(numero)
# Podemos reasignar variables
numero = numero + 10 # Ahora numero vale 110
print(numero)

numero += 5 # Forma abreviada de numero = numero + 5
print(numero) # Ahora numero vale 115

In [None]:
mi_variable + ' 10'

In [None]:
mi_variable = 10
print(type(mi_variable))

## Operaciones Aritméticas

Python soporta las operaciones matemáticas básicas:
* `+` : Suma
* `-` : Resta
* `*` : Multiplicación
* `/` : División (resultado siempre float)
* `%` : Módulo (resto de la división entera)
* `**`: Exponenciación (elevar a la potencia)
* `//`: División entera (resultado siempre int, descarta decimales)

In [None]:
# Ejemplo de operaciones aritméticas
a = 10
b = 3

suma = a + b
resta = a - b
multiplicacion = a * b
division = a / b
modulo = a % b
potencia = a ** b
division_entera = a // b

print(f"Suma: {suma}")
print(f"Resta: {resta}")
print(f"Multiplicación: {multiplicacion}")
print(f"División: {division}")
print(f"Módulo: {modulo}")
print(f"Potencia: {potencia}")
print(f"División Entera: {division_entera}")

In [None]:
pi + b

## Estructuras de Datos

Permiten almacenar y organizar colecciones de datos.

### Listas (`list`)

* Colecciones **ordenadas** de elementos.
* Son **mutables** (puedes cambiar su contenido: añadir, eliminar o modificar elementos).
* Se definen con corchetes `[]`, separando los elementos con comas.
* Los elementos pueden ser de diferentes tipos.
* Se accede a los elementos por su **índice** (posición), que empieza en `0`.
* El método `.append()` añade un elemento al final de la lista.

In [None]:
# Ejemplo de listas
frutas = ["manzana", "banana", "cereza"]
numeros_variados = [1, 2.5, 3, 4.0]
lista_mixta = [10, "hola", True, 3.14]

print(frutas)
print(type(frutas))



In [None]:
# Acceso por índice (el primer elemento es el índice 0)
primera_fruta = frutas[0]
segunda_fruta = frutas[1]
print(f"La primera fruta es: {primera_fruta} y la segunda fruta es {segunda_fruta}")



In [None]:
# Modificar un elemento
frutas[1] = "mandarina"
print(f"Lista modificada: {frutas}")

# Añadir un elemento al final
frutas.append("naranja")
print(f"Lista después de append: {frutas}")

# Longitud de la lista
print(f"Número de frutas: {len(frutas)}")

In [None]:
print(numeros_variados)
numeros = numeros_variados
print(numeros)
numeros_variados[0] = 25
print(numeros_variados)
print(numeros)

In [None]:
numeros = numeros_variados.copy()
numeros_variados[2] = 120
print(numeros_variados)
print(numeros)

In [None]:
# Ejercicio Práctico: Listas
# 1. Crea una lista llamada 'cursos' con los nombres de 3 cursos que te interesen (como strings).
# 2. Imprime el segundo curso de la lista (recuerda que el índice empieza en 0).
# 3. Añade un nuevo curso llamado 'Python' al final de la lista 'cursos' usando append().
# 4. Imprime la lista 'cursos' completa.

### Tuplas (`tuple`)

* Colecciones **ordenadas** de elementos, similares a las listas.
* Son **inmutables** (una vez creadas, no puedes cambiar su contenido: ni añadir, ni eliminar, ni modificar elementos).
* Se definen con paréntesis `()`, separando los elementos con comas.
* Se accede a los elementos por su **índice** (posición), igual que las listas.
* Son útiles para datos que no deben cambiar, como coordenadas o registros fijos.

In [None]:
# Ejemplo de tuplas
coordenadas = (10.0, 20.5)
colores_rgb = (255, 0, 0) # Rojo

print(coordenadas)
print(type(coordenadas))

# Acceso por índice
latitud = coordenadas[0]
print(f"Latitud: {latitud}")

# Intentar modificar una tupla dará un error (TypeError)
# coordenadas[0] = 15.0 # Esto causará un error si descomentas la línea

# Longitud de la tupla
print(f"Número de elementos en colores_rgb: {len(colores_rgb)}")

In [None]:
# Ejercicio Práctico: Tuplas
# 1. Crea una tupla llamada 'fecha_nacimiento' con tres números enteros: (día, mes, año).
# 2. Imprime la tupla completa.
# 3. Imprime el año de nacimiento accediendo al elemento correspondiente por su índice.

### Diccionarios (`dict`)

* Colecciones **ordenadas** de pares **clave-valor**.
* Son **mutables** (puedes añadir, eliminar o modificar pares clave-valor).
* Se definen con llaves `{}`. Cada elemento es un par `clave: valor`, separado por comas.
* Las **claves** deben ser únicas y de un tipo inmutable (normalmente strings o números).
* Los **valores** pueden ser de cualquier tipo (incluso otras listas o diccionarios).
* Se accede a los valores a través de su **clave**, no por índice numérico.

In [None]:
# Ejemplo de diccionario
estudiante = {
    "nombre": "Carlos",
    "edad": 22,
    "curso": "Ciencia de Datos",
    "activo": True
}

print(estudiante)
print(type(estudiante))



In [None]:
# Acceso a valores por clave
nombre_estudiante = estudiante["nombre"]
edad_estudiante = estudiante["edad"]
print(f"Nombre: {nombre_estudiante}, Edad: {edad_estudiante}")



In [None]:
# Modificar un valor
estudiante["curso"] = "Ingeniería de Datos"
print(f"Diccionario modificado: {estudiante}")


In [None]:
# Añadir un nuevo par clave-valor
estudiante["ciudad"] = "Córdoba"
print(f"Diccionario con nuevo elemento: {estudiante}")


In [None]:
# Obtener todas las claves
print(f"Claves: {estudiante.keys()}")
# Obtener todos los valores
print(f"Valores: {estudiante.values()}")

In [None]:
# Ejercicio Práctico: Diccionarios
# 1. Crea un diccionario llamado 'producto' con la siguiente información:
#    - 'nombre': 'Laptop'
#    - 'precio': 1200.50
#    - 'stock': 50
# 2. Imprime el diccionario completo.
# 3. Imprime el precio del producto accediendo a su valor mediante la clave 'precio'.
# 4. Añade un nuevo par clave-valor al diccionario: 'marca': 'MiMarca'.
# 5. Imprime el diccionario actualizado.

## Estructuras de Control

Permiten controlar el flujo de ejecución del programa.

### Condicionales (`if`, `elif`, `else`)

Permiten ejecutar bloques de código solo si se cumplen ciertas condiciones.

* `if`: Ejecuta el bloque si la condición es `True`.
* `elif` (else if): Se evalúa si el `if` anterior (o `elif` anterior) fue `False`. Ejecuta el bloque si su propia condición es `True`. Puedes tener varios `elif`.
* `else`: Se ejecuta si todas las condiciones anteriores (`if` y `elif`) fueron `False`. Es opcional.

In [None]:
# Ejemplo de condicionales
temperatura = 15

if temperatura > 20:
    print("Hace calor.")
else:
    print("Está fresco.")



In [None]:
# Otro ejemplo
nota = 20
if nota >= 90:
  calificacion = "Sobresaliente"
elif nota >= 70:
  calificacion = "Notable"
elif nota >= 50:
  calificacion = "Aprobado"
else:
  calificacion = "Desaprobado"

print(f"Con una nota de {nota}, la calificación es: {calificacion}")

In [None]:
# Ejercicio Práctico: Condicionales
# 1. Crea una variable 'puntuacion' con un valor entero (ej: 85).
# 2. Escribe una estructura if-elif-else que:
#    - Si 'puntuacion' es mayor o igual a 90, imprima "Excelente".
#    - Si 'puntuacion' está entre 70 y 89 (inclusive), imprima "Bueno".
#    - Si 'puntuacion' está entre 50 y 69 (inclusive), imprima "Suficiente".
#    - En cualquier otro caso (menor que 50), imprima "Insuficiente".

### Bucles (`for` y `while`)

Permiten repetir bloques de código múltiples veces.

* **Bucle `for`:** Itera (recorre) sobre los elementos de una secuencia (como una lista, tupla, string o un rango de números).
* **`range(start, stop, step)`:** Función útil para generar secuencias de números. `start` es el inicio (incluido, por defecto 0), `stop` es el fin (excluido), `step` es el incremento (por defecto 1).
* **Bucle `while`:** Repite el bloque mientras una condición sea `True`. ¡Cuidado con crear bucles infinitos si la condición nunca se vuelve `False`!

In [None]:
# Ejemplo de bucle for con una lista
print("Recorriendo lista de frutas:")
for fruta in frutas: # La variable 'fruta' toma el valor de cada elemento en cada iteración
    print(f"- {fruta}")


In [None]:
# Ejemplo de bucle for con range()
print("\nNúmeros del 0 al 4:")
for i in range(5): # range(5) genera 0, 1, 2, 3, 4
    print(i)



In [None]:
print("\nNúmeros pares del 2 al 10:")
for i in range(2, 11, 2): # Empieza en 2, hasta 11 (no incluido), de 2 en 2
    print(i)


In [None]:
# Ejemplo de bucle while
print("\nContador con while:")
contador = 0
while contador < 5:
    print(f"Contador actual: {contador}")
    contador += 1 # ¡Importante! Incrementar el contador para que la condición eventualmente sea False
print("Fin del bucle while.")

In [None]:
# Ejercicio Práctico: Bucle For
# 1. Tienes la siguiente lista de números: numeros = [10, 20, 30, 40, 50]
# 2. Usa un bucle 'for' para iterar sobre la lista 'numeros'.
# 3. Dentro del bucle, imprime cada número multiplicado por 2.

numeros = [10, 20, 30, 40, 50]
# Escribe tu bucle for aquí

## Funciones

Bloques de código reutilizables que realizan una tarea específica. Ayudan a organizar el código y evitar repeticiones.

* Se definen usando la palabra clave `def`, seguida del nombre de la función, paréntesis `()` (que pueden contener parámetros) y dos puntos `:`.
* El código dentro de la función debe estar indentado.
* **Parámetros:** Variables que la función recibe como entrada.
* **`return`:** Palabra clave usada para devolver un valor desde la función. Si no hay `return`, la función devuelve `None` por defecto.
* Para usar una función, la **llamas** por su nombre seguido de paréntesis, pasando los argumentos necesarios.

In [None]:
# Ejemplo de función simple
def saludar():
    """Esta función imprime un saludo simple."""
    print("Hola desde la función!")

# Llamar a la función
saludar()


In [None]:
# Ejemplo de función con parámetros y return
def sumar(a, b):
    """Esta función recibe dos números y devuelve su suma."""
    resultado = a + b
    return resultado

# Llamar a la función y guardar el resultado
valor_suma = sumar(5, 3)
print(f"El resultado de la suma es: {valor_suma}")

print(f"También podemos imprimir directamente: {sumar(10, 20)}")

In [None]:
def operaciones(a, b):
    """Esta función recibe dos números y devuelve su suma."""
    suma = a + b
    resta = a-b
    multiplicacion = a*b
    return (suma,resta, multiplicacion)

operaciones(5,4)

In [None]:
# Ejercicio Práctico: Funciones
# 1. Define una función llamada 'crear_saludo' que reciba un parámetro 'nombre' (un string).
# 2. Dentro de la función, debe crear un string de saludo como "¡Hola, [nombre]! Bienvenido/a.".
# 3. La función debe devolver (usando return) ese string de saludo.
# 4. Llama a la función 'crear_saludo' con tu nombre y guarda el resultado en una variable.
# 5. Imprime la variable con el saludo resultante.

# Define tu función aquí


# Llama a la función y prueba

# 3. Introducción a la biblioteca Numpy

Numpy (Numerical Python) es LA biblioteca fundamental para la computación numérica en Python. Su principal objeto es el `ndarray` (N-dimensional array), una estructura de datos muy eficiente para almacenar y operar con datos numéricos homogéneos (todos del mismo tipo).

**Ventajas de Numpy:**
* **Rendimiento:** Las operaciones con arrays Numpy son mucho más rápidas que con listas Python estándar, ya que muchas están implementadas en C.
* **Eficiencia de Memoria:** Los arrays Numpy consumen menos memoria que las listas Python para almacenar la misma cantidad de datos numéricos.
* **Funcionalidad:** Ofrece una vasta colección de funciones matemáticas y de álgebra lineal.
* **Vectorización:** Permite realizar operaciones sobre arrays completos sin necesidad de escribir bucles `for` explícitos en Python, lo que hace el código más limpio y rápido.

In [None]:
# Importar la biblioteca Numpy
# La convención es importarla con el alias 'np'
import numpy as np

In [None]:
# Crear arrays Numpy desde listas Python

# Array 1D (vector)
lista_python = [1, 2, 3, 4, 5]
array_1d = np.array(lista_python)
print("Array 1D:")
print(array_1d)
print(type(array_1d))
print(f"Tipo de datos del array: {array_1d.dtype}") # Muestra el tipo de dato dentro del array



In [None]:
# Array 2D (matriz)
lista_anidada = [[1, 2, 3], [4, 5, 6]]
array_2d = np.array(lista_anidada)
print("\nArray 2D:")
print(array_2d)
print(f"Tipo de datos del array: {array_2d.dtype}")

In [None]:
np.array((4,5,6))

In [None]:
# Crear arrays con funciones de Numpy

# Crear un array con un rango de valores (similar a range)
# np.arange(start, stop, step) - stop es exclusivo
array_rango = np.arange(0, 10, 2) # 0, 2, 4, 6, 8
print("\nArray con arange:")
print(array_rango)



In [None]:
# Crear un array con un número específico de puntos espaciados linealmente
# np.linspace(start, stop, num_puntos) - stop es inclusivo!
array_lineal = np.linspace(0, 1, 5) # 5 puntos entre 0 y 1 (incluidos)
print("\nArray con linspace:")
print(array_lineal)



In [None]:
# Crear un array con valores aleatorios (entre 0 y 1)
# np.random.rand(dimension1, dimension2, ...)
np.random.seed(21345)
array_aleatorio = np.random.rand(2, 3) # Matriz 2x3 con números aleatorios
print("\nArray aleatorio (2x3):")
print(array_aleatorio)



In [None]:
# Crear arrays de ceros o unos
array_ceros = np.zeros((2, 4)) # Matriz 2x4 de ceros
print("\nArray de ceros (2x4):")
print(array_ceros)

array_unos = np.ones(5) # Vector de 5 unos
print("\nArray de unos (vector):")
print(array_unos)

In [None]:
# Atributos importantes: shape y reshape

print("\nExplorando array_2d:")
print(f"Array original:\n{array_2d}")

# .shape: Devuelve una tupla con las dimensiones del array (filas, columnas)
print(f"Shape (dimensiones): {array_2d.shape}")

# .size: Devuelve el número total de elementos
print(f"Size (total elementos): {array_2d.size}")

# .ndim: Devuelve el número de dimensiones
print(f"Ndim (número de dimensiones): {array_2d.ndim}")



In [None]:
# .reshape(): Cambia la forma del array sin cambiar sus datos
# El número total de elementos debe ser el mismo
array_largo = np.arange(12) # 0 a 11
print(f"\nArray largo original (shape {array_largo.shape}):\n{array_largo}")

array_reformado = array_largo.reshape(3, 4) # Convertir a matriz 3x4
print(f"\nArray reformado (shape {array_reformado.shape}):\n{array_reformado}")


In [None]:

# También se puede usar -1 para que Numpy infiera una dimensión
array_reformado_auto = array_largo.reshape(6, -1) # Infiere que necesita 2 columnas (6x2=12)
print(f"\nArray reformado automáticamente (shape {array_reformado_auto.shape}):\n{array_reformado_auto}")

In [None]:
array_reformado_auto.reshape(-1,1)

In [None]:
# Indexación y Slicing

array_test = np.arange(10, 20) # [10, 11, 12, 13, 14, 15, 16, 17, 18, 19]
print(f"\nArray para slicing: {array_test}")

# Acceso a un elemento (índice 0)
print(f"Elemento en índice 3: {array_test[3]}") # Devuelve 13


In [None]:
lista = list(range(10,20))
lista[3]

In [None]:
# Slicing: array[start:stop:step]
print(f"Elementos del índice 2 al 5 (sin incluir 5): {array_test[2:5]}") # [12, 13, 14]
print(f"Elementos desde el inicio hasta el índice 4 (sin incluir 4): {array_test[:4]}") # [10, 11, 12, 13]
print(f"Elementos desde el índice 6 hasta el final: {array_test[6:]}") # [16, 17, 18, 19]
print(f"Elementos con paso 2: {array_test[::2]}") # [10, 12, 14, 16, 18]



In [None]:
array_test[-5:]

In [None]:
# Indexación en arrays 2D: array[fila, columna]
array_2d_test = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print(f"\nArray 2D para slicing:\n{array_2d_test}")

# Elemento en fila 1, columna 2
print(f"Elemento en [1, 2]: {array_2d_test[1, 2]}") # Devuelve 6



In [None]:
array_2d_test[1,2]

In [None]:
# Slicing en 2D
# Fila completa (fila 0)
print(f"Fila 0 completa: {array_2d_test[0, :]}") # o array_2d_test[0]
# Columna completa (columna 1)
print(f"Columna 1 completa: {array_2d_test[:, 1]}")



In [None]:
# Submatriz (filas 0 y 1, columnas 1 y 2)
print(f"Submatriz [0:2, 1:3]:\n{array_2d_test[0:2, 1:3]}")

In [None]:
# Operaciones Vectorizadas

arr1 = np.array([1, 2, 3])
arr2 = np.array([10, 20, 30])
escalar = 5

In [None]:
# Sumar un escalar a cada elemento
suma_escalar = arr1 + escalar
print(f"\nSuma con escalar: {arr1} + {escalar} = {suma_escalar}")

In [None]:
# Multiplicar elemento a elemento dos arrays (deben tener la misma forma)
mult_elementos = arr1 * arr2
print(f"Multiplicación elemento a elemento: {arr1} * {arr2} = {mult_elementos}")


In [None]:
# Comparación vectorizada
comparacion = arr1 > 1
print(f"Comparación vectorizada: {arr1} > 1 = {comparacion}") # Devuelve un array booleano



In [None]:
# Comparación con listas Python (más verboso y lento para arrays grandes)
lista1 = [1, 2, 3]
lista_suma_escalar = []
for x in lista1:
    lista_suma_escalar.append(x + escalar)
print(f"\nSuma con escalar (lista Python): {lista_suma_escalar}")
# ¡Numpy es mucho más conciso y rápido para esto!

### Funciones matemáticas y estadísticas básicas

In [None]:
arr_grande = np.random.rand(10) * 100 # 10 números aleatorios entre 0 y 100
print(f"Array para funciones estadísticas:\n{arr_grande}")

In [None]:
# Suma de todos los elementos
np.sum(arr_grande)


In [None]:
arr_grande.sum()

In [None]:
# Media (promedio)
np.mean(arr_grande)
arr_grande.mean()

In [None]:
# Desviación estándar
np.std(arr_grande)


In [None]:
# Máximo y Mínimo
maximo = np.max(arr_grande) # o arr_grande.max()
minimo = np.min(arr_grande) # o arr_grande.min()
print(f"Máximo: {maximo}, Mínimo: {minimo}")

In [None]:
# Funciones en arrays 2D
arr_2d_stats = np.array([[1, 5, 3], [9, 2, 7]])
print(f"\nArray 2D para stats:\n{arr_2d_stats}")


In [None]:
# Suma total
np.sum(arr_2d_stats)



In [None]:
# Suma por columnas (axis=0)
print(f"Suma por columnas (axis=0): {np.sum(arr_2d_stats, axis=0)}")

In [None]:
# Suma por filas (axis=1)
print(f"Suma por filas (axis=1): {np.sum(arr_2d_stats, axis=1)}")

In [None]:
arr_2d_stats.mean(axis = 0)

In [None]:
# Traspuesta de una matriz
arr_2d_stats.T
np.transpose(arr_2d_stats)

In [None]:
# Multiplicaciones de matrices

matriz1 = np.array([[1, 2], [3, 4]])
matriz2 = np.array([[5, 6], [7, 8]])

np.dot(matriz1,matriz2)


In [None]:
matriz1 @ matriz2

In [None]:
matriz1 * matriz2

In [None]:
# Ejercicio Práctico 1: Crear Arrays Numpy
# 1. Crea un array Numpy llamado 'vector_pares' que contenga los números pares del 2 al 20 (incluido) usando `np.arange()`.
# 2. Crea un array Numpy llamado 'vector_espaciado' que contenga 6 puntos linealmente espaciados entre 0 y 10 (ambos incluidos) usando `np.linspace()`.
# 3. Imprime ambos vectores.

In [None]:
# Ejercicio Práctico 2: Operaciones y Estadísticas Numpy
# 1. Crea una matriz Numpy 'matriz_aleatoria' de 4x3 (4 filas, 3 columnas) con números enteros aleatorios entre 1 y 100.
#    (Pista: puedes usar `np.random.randint(low, high, size=(rows, cols))`).
# 2. Imprime la matriz.
# 3. Calcula e imprime la media de *toda* la matriz.
# 4. Calcula e imprime la media de *cada columna* por separado (usando el argumento axis).


# 4. Introducción a la biblioteca Pandas
Pandas es la biblioteca **esencial** para la manipulación y análisis de datos en Python. Proporciona estructuras de datos de alto rendimiento y fáciles de usar, así como herramientas para leer/escribir datos, limpiarlos, transformarlos, fusionarlos y analizarlos.

**Estructuras de Datos Clave de Pandas:**

1.  **`Series`**: Es un array unidimensional etiquetado (similar a una columna en una tabla o una lista con índices personalizados). Puede contener datos de cualquier tipo.
2.  **`DataFrame`**: Es una estructura de datos tabular bidimensional (como una hoja de cálculo o una tabla SQL) con columnas de tipos potencialmente diferentes. Es la estructura de datos más utilizada en Pandas. Puedes pensar en un DataFrame como una colección de Series que comparten el mismo índice.

Pandas se construye sobre Numpy, por lo que muchas de las operaciones eficientes de Numpy se trasladan a Pandas.

In [None]:
# Importar la biblioteca Pandas
# La convención es importarla con el alias 'pd'
import pandas as pd

In [None]:
# Cargar datos en un DataFrame
# Pandas puede leer datos de muchos formatos (CSV, Excel, JSON, SQL, etc.)
# Google Colab incluye algunos datasets de ejemplo. Usaremos uno de ellos.

# La ruta 'sample_data/california_housing_train.csv' es estándar en Colab.
ruta_archivo = 'sample_data/california_housing_train.csv'
df = pd.read_csv(ruta_archivo)

# Nota: Para leer archivos Excel (.xlsx), usarías:
# df_excel = pd.read_excel('tu_archivo.xlsx')
# Si tienes un archivo Excel en tu Google Drive, necesitarías montar Drive primero.

Una vez cargado el dataset en un DataFrame (que hemos llamado `df`), el primer paso es siempre explorarlo para entender su estructura y contenido.

In [None]:
# Exploración básica del DataFrame

# .head(n): Muestra las primeras 'n' filas (por defecto 5). Muy útil para ver cómo son los datos.
print("Primeras 5 filas (head):")
df.head(10)


In [None]:
# .tail(n): Muestra las últimas 'n' filas (por defecto 5). Útil para ver el final del dataset.
print("\nÚltimas 3 filas (tail):")
df.tail(3)



In [None]:
# .info(): Proporciona un resumen conciso del DataFrame:
# - Número de filas y columnas.
# - Nombre y tipo de dato (Dtype) de cada columna.
# - Número de valores no nulos en cada columna (¡importante para detectar datos faltantes!).
# - Uso de memoria.
print("\nInformación general (info):")
df.info()


In [None]:
# .describe(): Genera estadísticas descriptivas para las columnas numéricas:

print("\nEstadísticas descriptivas (describe):")
df.describe()



In [None]:
# .shape: Devuelve una tupla con las dimensiones (número de filas, número de columnas).
print(f"\nDimensiones del DataFrame (shape): {df.shape}")
print(f"El DataFrame tiene {df.shape[0]} filas y {df.shape[1]} columnas.")


In [None]:
# .columns: Devuelve un objeto Index con los nombres de todas las columnas.
print("\nNombres de las columnas (columns):")
df.columns
# Podemos convertirlo a lista si es necesario: list(df.columns)

In [None]:
list(df.columns)

## Selección de Datos en Pandas

Seleccionar subconjuntos específicos de datos (filas, columnas o ambas) es una tarea fundamental. Pandas ofrece varias formas de hacerlo.

In [None]:
# Selección de Columnas

# Seleccionar UNA columna (devuelve una Serie de Pandas)
# Usa corchetes simples [] con el nombre de la columna
columna_poblacion = df['population']
print("\nSelección de UNA columna ('population' - tipo Series):")
columna_poblacion.head()
print(type(columna_poblacion))



In [None]:
# Seleccionar MÚLTIPLES columnas (devuelve un DataFrame)
# Usa dobles corchetes [[]] con una lista de nombres de columnas
columnas_seleccionadas = df[['latitude', 'longitude', 'median_house_value']]
print("\nSelección de MÚLTIPLES columnas (tipo DataFrame):")
columnas_seleccionadas.head()


### Selección basada en etiquetas (`.loc`)

`.loc[]` se utiliza para seleccionar datos por sus **nombres de etiqueta** (índices de fila y nombres de columna). Es la forma preferida cuando trabajas con etiquetas.

Sintaxis: `df.loc[etiquetas_filas, etiquetas_columnas]`

* `etiquetas_filas`: Puede ser una etiqueta única, una lista de etiquetas, un slice de etiquetas (`'a':'f'`), o una condición booleana. `:` selecciona todas las filas.
* `etiquetas_columnas`: Puede ser un nombre de columna único, una lista de nombres, un slice de nombres, o una condición booleana. `:` selecciona todas las columnas.

In [None]:
# Selección con .loc

# Por defecto, si no hemos definido un índice específico, Pandas usa enteros (0, 1, 2...) como etiquetas de fila.

# Seleccionar una fila por su etiqueta de índice (fila con índice 3)
fila_3 = df.loc[3]
print("\nSelección de Fila con índice 3 (.loc[3]):")
fila_3 # Devuelve una Serie


In [None]:
# Seleccionar múltiples filas por sus etiquetas de índice (filas 0, 5, 10)
filas_multiples = df.loc[[0, 5, 10]]
print("\nSelección de Múltiples Filas (.loc[[0, 5, 10]]):")
filas_multiples # Devuelve un DataFrame


In [None]:
# Seleccionar un rango de filas por etiqueta (filas 2 a 5, INCLUYENDO la 5)
rango_filas = df.loc[2:5] # ¡OJO! a diferencia del slicing normal, .loc incluye el final
print("\nSelección de Rango de Filas (.loc[2:5]):")
rango_filas



In [None]:
# Seleccionar filas Y columnas específicas
# Fila 3, columnas 'population' y 'median_income'
valor_especifico = df.loc[3, ['population', 'median_income']]
print("\nSelección Fila 3, Columnas específicas (.loc):")
valor_especifico



In [None]:
# Todas las filas, columnas específicas
columnas_loc = df.loc[:, ['latitude', 'total_rooms']]
print("\nSelección Todas las Filas, Columnas específicas (.loc):")
columnas_loc.head()



In [None]:
df['median_income'] > 10

In [None]:
# Selección basada en condición booleana (¡MUY potente!)
# Seleccionar todas las filas donde 'median_income' sea mayor que 10
ingresos_altos = df.loc[df['median_income'] > 10]

ingresos_altos.head()


In [None]:
print(f"Número de filas con ingresos altos: {ingresos_altos.shape[0]}")

### Selección basada en posición (`.iloc`)

`.iloc[]` se utiliza para seleccionar datos por su **posición entera** (índice numérico basado en 0), similar a como se hace en listas Python o arrays Numpy. Ignora las etiquetas de índice/columna.

Sintaxis: `df.iloc[posiciones_filas, posiciones_columnas]`

* `posiciones_filas`: Puede ser un entero único, una lista de enteros, un slice de enteros (`0:5`). `:` selecciona todas las filas.
* `posiciones_columnas`: Puede ser un entero único, una lista de enteros, un slice de enteros. `:` selecciona todas las columnas.

In [None]:
# Selección con .iloc

# Seleccionar la PRIMERA fila (posición 0)
primera_fila = df.iloc[0]

primera_fila # Devuelve una Serie



In [None]:
# Seleccionar las primeras 5 filas (posiciones 0 a 4)
primeras_5_filas = df.iloc[0:5] # El slicing aquí SÍ excluye el final (como en Python/Numpy)
primeras_5_filas



In [None]:
# Seleccionar filas Y columnas específicas por posición
# Fila en posición 3, Columna en posición 2 (total_rooms)
valor_iloc = df.iloc[3, 2]
valor_iloc


In [None]:
# Filas en posiciones 0 a 2 (excluye 2), Columnas en posiciones 1 a 4 (excluye 4)
sub_df_iloc = df.iloc[0:2, 1:4]
sub_df_iloc


In [None]:
# Todas las filas, últimas 3 columnas
ultimas_columnas = df.iloc[:, -3:] # Índices negativos funcionan como en Python
ultimas_columnas.head()

### Filtrado Booleano (Forma Corta)

Aunque puedes usar `.loc` con condiciones booleanas (como `df.loc[df['columna'] > valor]`), Pandas también permite una sintaxis más corta y común para filtrar filas basadas en condiciones: `df[condicion]`

In [None]:
# Filtrado Booleano (Sintaxis Corta)

# Seleccionar filas donde 'population' sea mayor que 3000
pop_alta = df[df['population'] > 3000]
pop_alta.head()


In [None]:
df.population

In [None]:
print(f"Número de filas con población alta: {pop_alta.shape[0]}")

In [None]:
# Combinar múltiples condiciones:
# & : AND lógico (ambas condiciones deben ser True)
# | : OR lógico (al menos una condición debe ser True)
# ~ : NOT lógico (niega la condición)
# ¡IMPORTANTE!: Envuelve cada condición individual entre paréntesis ()

# Filas donde 'median_income' > 5 Y 'housing_median_age' < 20
condicion_combinada = df[(df['median_income'] > 5) & (df['housing_median_age'] < 20)]
condicion_combinada.head()


In [None]:
# Seleccionar datos con .query()

df.query("median_income > 5 and housing_median_age < 20").head()

## Agrupamiento de Datos (`.groupby()`)

Es una operación extremadamente útil para dividir el DataFrame en grupos basados en los valores de una o más columnas y luego aplicar una función de agregación (como `sum`, `mean`, `size`, `count`, `median`, etc.) a cada grupo.

El proceso es: **Split -> Apply -> Combine**
1.  **Split:** Divide el DataFrame en grupos según los valores de la columna(s) especificada(s).
2.  **Apply:** Aplica una función a cada grupo independientemente.
3.  **Combine:** Combina los resultados en una nueva estructura de datos (normalmente una Serie o DataFrame).

In [None]:
# Agrupamiento con .groupby()

# Agrupar por la columna 'hosuing_median_age' y contar cuántas filas hay en cada grupo
conteo_por_age = df.groupby('housing_median_age').size()
conteo_por_age.head()




In [None]:
# Agrupar por 'hosuing_median_age' y calcular la media de 'median_house_value' para cada grupo
media_valor = df.groupby('housing_median_age')['median_house_value'].mean()

media_valor



In [None]:
# Agrupar por 'ocean_proximity' y calcular múltiples agregaciones
# Usamos el método .agg() que permite pasar un diccionario o lista de funciones
agregaciones = df.groupby('housing_median_age').agg(
    media_ingresos=('median_income', 'mean'), # ('nombre_nueva_columna', 'funcion_agregacion')
    mediana_poblacion=('population', 'median'),
    total_habitaciones=('total_rooms', 'sum'),
    numero_distritos=('longitude', 'count') # Contar cualquier columna no nula sirve
)

agregaciones


In [None]:
# Agrupación por una columna externa

df.groupby(df.median_house_value > 15000).size()

## Creación de data frames

Tambien se pueden convertir valores que tenemos en listas, arrays o diccionarios a DataFrames de pandas con `pd.DataFrame`



In [None]:
# Creamos un diccionario
data_ejemplo = {'col1': [1, 2, np.nan, 4, 2, 6, np.nan],
                'col2': ['a', 'b', 'c', 'd', 'b', 'f', 'c'],
                'col3': [10, 20, 30, 40, 20, 60, 30]}
data_ejemplo

In [None]:
# Lo convertimos en dataframe

df_ejemplo = pd.DataFrame(data_ejemplo)
df_ejemplo

## Manejo Básico de Valores Nulos (NaN)

Los datos del mundo real a menudo están incompletos, es decir, contienen valores faltantes o nulos (representados en Pandas/Numpy como `NaN`, Not a Number).

Es crucial identificar y decidir cómo tratar estos valores.

In [None]:
# Detección de Valores Nulos

# .isnull() devuelve un DataFrame booleano del mismo tamaño,
# con True donde hay un NaN y False donde hay un valor.

df_ejemplo.isnull()


In [None]:
# Es más útil sumar los True por columna para saber cuántos NaN hay en cada una.
# True se trata como 1 y False como 0 en la suma.
conteo_nulos_por_columna = df_ejemplo.isnull().sum()
print("\nConteo de valores nulos por columna (.isnull().sum()):")
print(conteo_nulos_por_columna)
# En este dataset de ejemplo parece que no hay valores nulos. ¡Eso es raro en la práctica!


In [None]:
df_ejemplo[df_ejemplo.isnull().col1]

### Eliminación de Valores Nulos (`.dropna()`)

Una estrategia simple es eliminar las filas (o columnas) que contienen valores nulos.

**¡Precaución!** Eliminar filas puede llevar a una pérdida significativa de datos, especialmente si muchos valores faltan en diferentes filas. Úsalo con cuidado.

In [None]:
# Eliminar filas con al menos un valor nulo
df_sin_nulos = df_ejemplo.dropna() # Por defecto, elimina filas (axis=0)
df_sin_nulos

In [None]:
# Si quisiéramos eliminar COLUMNAS con al menos un valor nulo:
df_sin_nulos_cols = df_ejemplo.dropna(axis=1)
df_sin_nulos_cols


Otras estrategias (más avanzadas, no cubiertas hoy en detalle) incluyen la **imputación**: rellenar los valores nulos con un valor estimado (como la media, mediana, moda de la columna, o usando modelos más complejos). Pandas tiene el método `.fillna()` para esto.

## Manejo Básico de Duplicados

A veces, los datasets pueden contener filas duplicadas (registros idénticos). Es importante detectarlas y, a menudo, eliminarlas.

In [None]:
# Podemos agregar filas y columnas en los dataframe

df_ejemplo.loc[7,:] = df_ejemplo.iloc[5]
df_ejemplo

In [None]:
# Detección de Filas Duplicadas

# .duplicated() devuelve una Serie booleana indicando si cada fila es un duplicado
# de una fila *anterior*. La primera aparición no se marca como duplicada.
duplicados = df_ejemplo.duplicated()

duplicados


In [None]:
# Contar el número total de filas duplicadas
numero_duplicados = df_ejemplo.duplicated().sum()
print(f"\nNúmero total de filas duplicadas: {numero_duplicados}")


### Eliminación de Filas Duplicadas (`.drop_duplicates()`)

Elimina las filas duplicadas. Por defecto, mantiene la primera aparición y elimina las siguientes.

In [None]:
# Eliminar filas duplicadas
df_sin_duplicados = df_ejemplo.drop_duplicates()
df_sin_duplicados

In [None]:
# Ejercicio Práctico 1: Selección y Filtrado con Pandas
# Usando el DataFrame 'df':
# 1. Selecciona y muestra las filas donde 'housing_median_age' sea mayor que 40
#    Y ('&') 'total_rooms' sea menor que 1000. Usa el método de filtrado booleano corto.
# 2. Usando `.loc`, selecciona las filas con índice (etiqueta) del 100 al 105 (inclusive),
#    pero solo muestra las columnas 'latitude', 'longitude', y 'median_house_value'.

In [None]:
# Ejercicio Práctico 2: Agrupamiento con Pandas
# Usando el DataFrame 'df':
# 1. Agrupa los datos por la columna 'ocean_proximity'.
# 2. Para cada grupo ('ocean_proximity'), calcula la *mediana* del valor de 'median_house_value'.
# 3. Imprime el resultado (que debería ser una Serie de Pandas).
#    (Pista: después de .groupby(...), selecciona la columna y aplica .median()).

# 5. Visualización de datos con Matplotlib y Seaborn

"Una imagen vale más que mil palabras" (o mil filas de datos). La visualización de datos es crucial en la Ciencia de Datos para:

* **Explorar:** Entender patrones, tendencias, distribuciones y relaciones en los datos.
* **Comunicar:** Presentar hallazgos de forma clara y efectiva a otros.
* **Detectar:** Identificar valores atípicos (outliers) o problemas en los datos.

Usaremos dos bibliotecas populares:

1.  **Matplotlib:** Es la biblioteca de visualización fundamental en Python. Ofrece un control muy detallado sobre cada aspecto del gráfico, pero puede ser un poco verbosa para gráficos complejos.
2.  **Seaborn:** Construida sobre Matplotlib, proporciona una interfaz de más alto nivel con estilos predeterminados más atractivos y funciones específicas para crear gráficos estadísticos informativos con menos código.

In [None]:
# Importar las bibliotecas de visualización
import matplotlib.pyplot as plt
import seaborn as sns

# Configuraciones opcionales para mejorar la apariencia en Colab/Jupyter
# %matplotlib inline # Asegura que los gráficos se muestren en el notebook
# sns.set(style="whitegrid") # Aplica un estilo de Seaborn por defecto

In [None]:
# Lectura de dataframes desde internet

dire = "https://raw.githubusercontent.com/pabanib/dataframes/master/housing.csv"

df = pd.read_csv(dire)
df.head()

### Gráfico de Barras

Útil para comparar cantidades entre diferentes categorías.

In [None]:
# Gráfico de Barras con Matplotlib

# Contemos cuántas propiedades hay por 'ocean_proximity'
conteo_oceano = df['ocean_proximity'].value_counts()
print("Conteo por categoría:\n", conteo_oceano)



In [None]:
# Crear el gráfico de barras
plt.figure(figsize=(8, 5)) # Opcional: ajustar tamaño de la figura (ancho, alto en pulgadas)
plt.bar(conteo_oceano.index, conteo_oceano.values) # .index son las categorías, .values son las alturas

plt.title('Número de Propiedades por Proximidad al Océano')
plt.xlabel('Proximidad al Océano')
plt.ylabel('Número de Propiedades')
plt.xticks(rotation=45) # Opcional: Rotar etiquetas del eje X si se solapan
plt.show() # Muestra el gráfico

In [None]:
# Gráfico de Barras con Seaborn (más directo para conteos)

plt.figure(figsize=(8, 5))
sns.countplot(data=df, x='ocean_proximity')


In [None]:
plt.figure(figsize=(8, 5))
sns.countplot(data=df, x='ocean_proximity', order=conteo_oceano.index) # order opcional para mantener el orden de value_counts
plt.title('Número de Propiedades por Proximidad al Océano (Seaborn)')
plt.xlabel('Proximidad al Océano')
plt.ylabel('Frecuencia (Count)')
plt.xticks(rotation=45)
plt.show()

### Gráfico de Dispersión (Scatter Plot)

Ideal para visualizar la relación entre dos variables numéricas. Cada punto representa una observación (una fila del DataFrame).

In [None]:
# Gráfico de Dispersión con Matplotlib

plt.figure(figsize=(10, 6))
plt.scatter(df['median_income'], df['median_house_value'], alpha=0.1) # alpha para transparencia (útil con muchos puntos)
plt.title('Valor Medio de la Vivienda vs. Ingreso Medio (Matplotlib)')
plt.xlabel('Ingreso Medio (Decenas de miles de $)')
plt.ylabel('Valor Medio de la Vivienda ($)')
plt.show()

In [None]:
# Gráfico de Dispersión con Seaborn

plt.figure(figsize=(10, 6))
sns.scatterplot(data=df, x='median_income', y='median_house_value', alpha=0.1)
plt.title('Valor Medio de la Vivienda vs. Ingreso Medio (Seaborn)')
plt.xlabel('Ingreso Medio') # Seaborn a veces pone nombres por defecto
plt.ylabel('Valor Medio de la Vivienda')
plt.show()



In [None]:
# Seaborn facilita añadir más dimensiones, por ejemplo, coloreando por categoría
plt.figure(figsize=(12, 7))
sns.scatterplot(data=df, x='median_income', y='median_house_value', hue='ocean_proximity', alpha=0.2)
plt.title('Valor Vivienda vs. Ingreso (Coloreado por Proximidad Océano)')
plt.xlabel('Ingreso Medio')
plt.ylabel('Valor Medio de la Vivienda')
plt.show()

### Personalización Básica

Tanto Matplotlib como Seaborn (ya que Seaborn usa Matplotlib por debajo) permiten personalizar los gráficos.

In [None]:
# Ejemplo de personalización (aplicado a un gráfico de Matplotlib)

plt.figure(figsize=(10, 6)) # Tamaño de la figura
plt.scatter(df['longitude'], df['latitude'], alpha=0.1, c=df['median_house_value'], cmap='viridis') # Colorear por valor
plt.colorbar(label='Valor Medio Vivienda') # Añadir barra de color
plt.title('Distribución Geográfica de Propiedades', fontsize=16) # Título con tamaño de fuente
plt.xlabel('Longitud', fontsize=12)
plt.ylabel('Latitud', fontsize=12)
plt.grid(True) # Añadir rejilla
plt.show()

### Integración de Pandas con Matplotlib

Pandas tiene métodos `.plot()` integrados que usan Matplotlib por debajo para crear gráficos rápidamente desde DataFrames o Series.

Sintaxis: `df['columna'].plot(kind='tipo_grafico')` o `df.plot(kind='...', x='col_x', y='col_y')`

In [None]:
# Ejemplo de .plot() de Pandas

# Histograma del ingreso medio
df['median_income'].plot(kind='hist')
plt.xlabel('Ingreso Medio')
plt.show()



In [None]:
# Histograma del ingreso medio
df['median_income'].plot(kind='hist', bins=50, figsize=(8, 5), title='Histograma del Ingreso Medio (Pandas .plot)')
plt.xlabel('Ingreso Medio')
plt.show()

In [None]:
# Gráfico de barras del conteo por océano (usando la Serie que calculamos antes)
conteo_oceano.plot(kind='bar', figsize=(8, 5), title='Propiedades por Océano (Pandas .plot)')
plt.ylabel('Número de Propiedades')
plt.xticks(rotation=0) # Rotar etiquetas si es necesario
plt.show()

In [None]:
# Ejercicio Práctico 1: Gráfico de Dispersión Personalizado
# 1. Crea un gráfico de dispersión (usando Matplotlib o Seaborn) para visualizar la relación
#    entre 'housing_median_age' (eje x) y 'median_house_value' (eje y) del DataFrame 'df'.
# 2. Añade un título descriptivo al gráfico.
# 3. Añade etiquetas a los ejes X e Y.
# 4. (Opcional) Experimenta con el parámetro 'alpha' si hay muchos puntos.
# 5. Muestra el gráfico.

In [None]:
# Ejercicio Práctico 2: Gráfico de Barras con Tamaño Ajustado
# 1. Calcula cuántas propiedades hay para cada valor único en la columna 'housing_median_age'.
#    (Pista: usa `.value_counts()` en esa columna. Puede que quieras ordenarlo por índice con `.sort_index()`).
# 2. Crea un gráfico de barras (usando Matplotlib, Seaborn o Pandas .plot) para mostrar esta distribución.
# 3. Establece el tamaño de la figura (`figsize`) a un ancho de 15 y un alto de 6 pulgadas para que se vea mejor.
# 4. Añade un título y etiquetas a los ejes.
# 5. Muestra el gráfico.

---
# ¡Fin de la Introducción!

¡Felicidades! Has cubierto los fundamentos de Python, Numpy, Pandas y visualización básica con Matplotlib/Seaborn. Esto es solo el comienzo de tu viaje en la Ciencia de Datos.

**Próximos Pasos Sugeridos:**
* Practicar mucho con los ejercicios y experimentar con el dataset.
* Explorar más funciones de Pandas (merge, join, pivot_table, manejo de fechas).
* Aprender más sobre visualización (diferentes tipos de gráficos, personalización avanzada).
* Introducirte a bibliotecas de Machine Learning como Scikit-learn.

¡Sigue aprendiendo y explorando el fascinante mundo de los datos!
---