# Introduccion Python

In [None]:
# Tipos numéricos
entero = "10"                 # int
decimal = 3.14              # float

# Texto
texto = "Machine Learning"  # str

# Booleano
es_mayor = True             # bool
es_mayor = False             # bool

# Ver tipo de dato
print(entero, type(entero))   # <class 'int'>
print(decimal, type(decimal))  # <class 'float'>

# Listas

edades = [22, 30, 25, 40]
# edades = [22, "30", 25, 40]
print(edades)            # Salida: [22, '30', 25, 40]
print(edades[1])         # Acceso: 30
edades.append(35)        # Agregar
print(edades)            # Salida: [22, 30, 25, 40, 35]
print(len(edades))  

# Diccionarios Mapas Hash maps

# { "key": value}

# JSON

persona = {"nombre": "Ana", "edad": 28, "activo": True}
persona_2 = {
    "nombre": "Ana",
    "direcciones": [
        {"ciudad": "Madrid", "pais": "España"},
        {"ciudad": "Barcelona", "pais": "España"}
    ]
}

print(persona["nombre"])     # Acceso: Ana
persona["edad"] = 29         # Modificación
print(persona)

# Tuplas

coordenadas = (10.0, 20.5)
print(coordenadas[0])       # Acceso: 10.0

coordenadas[0] = 12.0  # Error: TypeError, las tuplas son inmutables
# Inmutables: no puedes hacer coordenadas[0] = 12.0

# Sets 

valores = {1, 2, 3, 2, 3}
print(valores)              # Salida: {1, 2, 3} (sin duplicados)
valores.add(5)

In [None]:
persona_2["direcciones"]

In [None]:
list(range(5))

In [None]:
# Cuadrado de números del 0 al 4
cuadrados = [x**2 for x in range(5)]
print(type(cuadrados))  # <class 'list'>
print(cuadrados)  # [0, 1, 4, 9, 16]

pares = [x for x in range(10) if x % 2 == 0]
print(pares)  # [0, 2, 4, 6, 8]

columnas = ["edad", "ingreso", "etiqueta", "ingreso_extra"]
# Obtener solo columnas numéricas
num_cols = [col for col in columnas if "ingreso" in col]
print(num_cols)  # ['ingreso', 'ingreso_extra']

In [None]:
# Crear una lista de personas
personas = [
    {"nombre": "Ana", "edad": 17},
    {"nombre": "Luis", "edad": 25},
    {"nombre": "Carla", "edad": 19}
]

# Obtener los nombres de los mayores de edad
mayores = [p["nombre"] for p in personas if p["edad"] >= 18]
print("Mayores de edad:", mayores)


# Introducción a Numpy y Pandas 

## Numpy: 
- Manejo de arreglos o matrices multidimensionales o Tensores.
- El Tensor es el tipo de dato nativo de esta librería.
- Perfecto manejo de operaciones de álgebra lineal.
- Trabaja muy eficientemente haciendo cálculos sin necesidad de for loops.
-  Muy bueno indexando y agrupando data para generar nueva data enriquecida.

In [None]:
import numpy as np

In [None]:
# Crear un array
a = np.array([1, 2, 3, 4])
a.shape

In [None]:
# Crear un array
a = np.array([1, 2, 3, 4])

# Operaciones vectorizadas
print("Suma:", a + 2)
print("Multiplicación:", a * 3)

# Propiedades
print("Forma:", a.shape)
print("Tipo:", a.dtype)

In [None]:
np.zeros((3, 3))

In [None]:
np.ones((2, 2))

In [None]:
np.eye(3)

In [None]:
np.linspace(0, 10, 5)


In [None]:
n = np.random.randint(1, 5, (5, 3))
n

In [None]:
n.mean(axis=1)

In [None]:
n.sum(axis=2)

In [None]:
print("Elementos mayores que 3:")
print(n)
n > 3

In [None]:
n[n > 3]

In [None]:
n[:, 0]  # Segunda columna

## Pandas

- Manejo de datos en forma tablas llamadas DataFrame.
- El DataFrame y la Series son los tipos de datos nativos de esta librería.
- Misma lógica de operar que en Numpy.
- Soporta métodos SQL-like para pontenciar las transformaciones de data.

In [None]:
import pandas as pd

# Crear un DataFrame desde un diccionario
datos = {
    "Nombre": ["Ana", "Luis", "Carlos", "Sofía", "María", "Pedro", "Lucía", "Javier"],
    "Edad": [23, 35, 45, 29, 31, 28, 26, 42],
    "Ciudad": ["San José", "Cartago", "Heredia", "Alajuela", "San José", "Cartago", "Heredia", "Alajuela"],
    "Ingreso": [2500, 4000, 3200, 3700, np.nan, 4100, 2800, np.nan]
}

df = pd.DataFrame(datos)
df

In [None]:
print(df.shape)             # (filas, columnas)
print(df.columns)       # Nombres de columnas
print(df.dtypes)            # Tipos de datos
df.describe()        # Estadísticas numéricas   

In [None]:
df["Nombre"]          # Serie
df[["Nombre", "Edad"]] # Subconjunto de columnas

In [None]:
df.loc[0]              # Primera fila (por etiqueta)
# df.iloc[2]             # Tercera fila (por posición)
df.iloc[1:3]           # Filas 1 y 2

In [None]:
df[df["Edad"] > 30]  # Personas mayores de 30

In [None]:
df["Edad * 2"] = df["Edad"] * 2
df

In [None]:
# Limpieza de datos

df.isnull().sum()                 # Cuántos nulos por columna

In [None]:
df.dropna()                       # Eliminar filas con nulos

In [None]:
df.fillna(0)                      # Rellenar nulos con 0

In [None]:
df

In [None]:
df = df.fillna(0) 

In [None]:
df["Ingreso"].mean()            # Promedio
df["Edad"].min(), df["Edad"].max()
df["Ciudad"].value_counts()     # Frecuencia por categoría

In [None]:
# Agrupar y resumir
df.groupby("Ciudad")["Ingreso"].mean()

In [None]:
import matplotlib.pyplot as plt

# Histograma de edades
df["Edad"].hist(bins=5)
plt.title("Distribución de Edades")
plt.xlabel("Edad")
plt.ylabel("Frecuencia")
plt.show()

# Gráfico de barras por ciudad
df.groupby("Ciudad")["Ingreso"].mean().plot(kind="bar")
plt.title("Ingreso Promedio por Ciudad")
plt.ylabel("Ingreso")
plt.xticks(rotation=45)
plt.show()

In [None]:
df.to_csv("datos.csv", index=False)  # Guardar a CSV

In [None]:
df = pd.read_csv("datos.csv")  # Cargar desde CSV
df