# Introduccion Python

In [None]:
# Tipos numéricos
entero = "10"                 # int
decimal = 3.14              # float

# Texto
texto = "Machine Learning"  # str

# Booleano
es_mayor = True             # bool
es_mayor = False             # bool

# Ver tipo de dato
print(entero, type(entero))   # <class 'int'>
print(decimal, type(decimal))  # <class 'float'>

# Listas

edades = [22, 30, 25, 40]
# edades = [22, "30", 25, 40]
print(edades)            # Salida: [22, '30', 25, 40]
print(edades[1])         # Acceso: 30
edades.append(35)        # Agregar
print(edades)            # Salida: [22, 30, 25, 40, 35]
print(len(edades))  

# Diccionarios Mapas Hash maps

# { "key": value}

# JSON

persona = {"nombre": "Ana", "edad": 28, "activo": True}
persona_2 = {
    "nombre": "Ana",
    "direcciones": [
        {"ciudad": "Madrid", "pais": "España"},
        {"ciudad": "Barcelona", "pais": "España"}
    ]
}

print(persona["nombre"])     # Acceso: Ana
persona["edad"] = 29         # Modificación
print(persona)

# Tuplas

coordenadas = (10.0, 20.5)
print(coordenadas[0])       # Acceso: 10.0

coordenadas[0] = 12.0  # Error: TypeError, las tuplas son inmutables
# Inmutables: no puedes hacer coordenadas[0] = 12.0

# Sets 

valores = {1, 2, 3, 2, 3}
print(valores)              # Salida: {1, 2, 3} (sin duplicados)
valores.add(5)

In [None]:
persona_2["direcciones"]

In [None]:
list(range(5))

In [None]:
# Cuadrado de números del 0 al 4
cuadrados = [x**2 for x in range(5)]
print(type(cuadrados))  # <class 'list'>
print(cuadrados)  # [0, 1, 4, 9, 16]

pares = [x for x in range(10) if x % 2 == 0]
print(pares)  # [0, 2, 4, 6, 8]

columnas = ["edad", "ingreso", "etiqueta", "ingreso_extra"]
# Obtener solo columnas numéricas
num_cols = [col for col in columnas if "ingreso" in col]
print(num_cols)  # ['ingreso', 'ingreso_extra']

In [None]:
# Crear una lista de personas
personas = [
    {"nombre": "Ana", "edad": 17},
    {"nombre": "Luis", "edad": 25},
    {"nombre": "Carla", "edad": 19}
]

# Obtener los nombres de los mayores de edad
mayores = [p["nombre"] for p in personas if p["edad"] >= 18]
print("Mayores de edad:", mayores)


# Introducción a Numpy y Pandas 

## Numpy: 
- Manejo de arreglos o matrices multidimensionales o Tensores.
- El Tensor es el tipo de dato nativo de esta librería.
- Perfecto manejo de operaciones de álgebra lineal.
- Trabaja muy eficientemente haciendo cálculos sin necesidad de for loops.
-  Muy bueno indexando y agrupando data para generar nueva data enriquecida.

In [1]:
import numpy as np

In [2]:
# Crear un array
a = np.array([1, 2, 3, 4])
a.shape

(4,)

In [7]:
# Crear un array
a = np.array([1, 2, 3, 4])

# Operaciones vectorizadas
print("Suma:", a + 2)
print("Multiplicación:", a * 3)

# Propiedades
print("Forma:", a.shape)
print("Tipo:", a.dtype)

Suma: [3 4 5 6]
Multiplicación: [ 3  6  9 12]
Forma: (4,)
Tipo: int64


In [5]:
np.zeros((3, 3, 3))

array([[[0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.]],

       [[0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.]],

       [[0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.]]])

In [6]:
np.zeros((3, 3, 3)).shape

(3, 3, 3)

In [8]:
np.ones((2, 2))

array([[1., 1.],
       [1., 1.]])

In [9]:
np.eye(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [10]:
np.linspace(0, 10, 5)


array([ 0. ,  2.5,  5. ,  7.5, 10. ])

In [23]:
n = np.random.randint(1, 5, (5, 3, 2))
n

array([[[1, 3],
        [2, 2],
        [2, 3]],

       [[3, 3],
        [1, 1],
        [2, 2]],

       [[1, 2],
        [1, 3],
        [2, 3]],

       [[2, 4],
        [4, 3],
        [3, 3]],

       [[2, 1],
        [2, 1],
        [2, 2]]])

In [14]:
n.mean(axis=1)

array([1.        , 3.        , 2.        , 2.66666667, 2.66666667])

In [17]:
n.sum(axis=2)

AxisError: axis 2 is out of bounds for array of dimension 2

In [18]:
print("Elementos mayores que 3:")
print(n)
n > 3

Elementos mayores que 3:
[[1 1 1]
 [4 1 4]
 [3 1 2]
 [1 4 3]
 [1 4 3]]


array([[False, False, False],
       [ True, False,  True],
       [False, False, False],
       [False,  True, False],
       [False,  True, False]])

In [19]:
n[n > 3]

array([4, 4, 4, 4])

In [24]:
n

array([[[1, 3],
        [2, 2],
        [2, 3]],

       [[3, 3],
        [1, 1],
        [2, 2]],

       [[1, 2],
        [1, 3],
        [2, 3]],

       [[2, 4],
        [4, 3],
        [3, 3]],

       [[2, 1],
        [2, 1],
        [2, 2]]])

In [26]:
n[:, 1, :]  # Segunda columna

array([[2, 2],
       [1, 1],
       [1, 3],
       [4, 3],
       [2, 1]])

## Pandas

- Manejo de datos en forma tablas llamadas DataFrame.
- El DataFrame y la Series son los tipos de datos nativos de esta librería.
- Misma lógica de operar que en Numpy.
- Soporta métodos SQL-like para pontenciar las transformaciones de data.

In [27]:
import pandas as pd

# Crear un DataFrame desde un diccionario
datos = {
    "Nombre": ["Ana", "Luis", "Carlos", "Sofía", "María", "Pedro", "Lucía", "Javier"],
    "Edad": [23, 35, 45, 29, 31, 28, 26, 42],
    "Ciudad": ["San José", "Cartago", "Heredia", "Alajuela", "San José", "Cartago", "Heredia", "Alajuela"],
    "Ingreso": [2500, 4000, 3200, 3700, np.nan, 4100, 2800, np.nan]
}

df = pd.DataFrame(datos)
df

Unnamed: 0,Nombre,Edad,Ciudad,Ingreso
0,Ana,23,San José,2500.0
1,Luis,35,Cartago,4000.0
2,Carlos,45,Heredia,3200.0
3,Sofía,29,Alajuela,3700.0
4,María,31,San José,
5,Pedro,28,Cartago,4100.0
6,Lucía,26,Heredia,2800.0
7,Javier,42,Alajuela,


In [28]:
print(df.shape)             # (filas, columnas)
print(df.columns)       # Nombres de columnas
print(df.dtypes)            # Tipos de datos
df.describe()        # Estadísticas numéricas   

(8, 4)
Index(['Nombre', 'Edad', 'Ciudad', 'Ingreso'], dtype='object')
Nombre      object
Edad         int64
Ciudad      object
Ingreso    float64
dtype: object


Unnamed: 0,Edad,Ingreso
count,8.0,6.0
mean,32.375,3383.333333
std,7.744814,655.489639
min,23.0,2500.0
25%,27.5,2900.0
50%,30.0,3450.0
75%,36.75,3925.0
max,45.0,4100.0


In [31]:
# df["Nombre"]          # Serie
df[["Nombre", "Edad"]] # Subconjunto de columnas

Unnamed: 0,Nombre,Edad
0,Ana,23
1,Luis,35
2,Carlos,45
3,Sofía,29
4,María,31
5,Pedro,28
6,Lucía,26
7,Javier,42


In [32]:
df.loc[0]              # Primera fila (por etiqueta)
# df.iloc[2]             # Tercera fila (por posición)
df.iloc[1:3]           # Filas 1 y 2

Unnamed: 0,Nombre,Edad,Ciudad,Ingreso
1,Luis,35,Cartago,4000.0
2,Carlos,45,Heredia,3200.0


In [33]:
df["Edad"] > 30

0    False
1     True
2     True
3    False
4     True
5    False
6    False
7     True
Name: Edad, dtype: bool

In [37]:
df[df["Edad"] > 30]  # Personas mayores de 30
df[df["Edad"] > 30]["Nombre"].to_numpy()  # Personas mayores de 30

array(['Luis', 'Carlos', 'María', 'Javier'], dtype=object)

In [38]:
df["Edad * 2"] = df["Edad"] * 2
df

Unnamed: 0,Nombre,Edad,Ciudad,Ingreso,Edad * 2
0,Ana,23,San José,2500.0,46
1,Luis,35,Cartago,4000.0,70
2,Carlos,45,Heredia,3200.0,90
3,Sofía,29,Alajuela,3700.0,58
4,María,31,San José,,62
5,Pedro,28,Cartago,4100.0,56
6,Lucía,26,Heredia,2800.0,52
7,Javier,42,Alajuela,,84


In [None]:
# Limpieza de datos

df.isnull().sum()                 # Cuántos nulos por columna

In [39]:
df.dropna()                       # Eliminar filas con nulos

Unnamed: 0,Nombre,Edad,Ciudad,Ingreso,Edad * 2
0,Ana,23,San José,2500.0,46
1,Luis,35,Cartago,4000.0,70
2,Carlos,45,Heredia,3200.0,90
3,Sofía,29,Alajuela,3700.0,58
5,Pedro,28,Cartago,4100.0,56
6,Lucía,26,Heredia,2800.0,52


In [41]:
df.fillna("Not a Number")                      # Rellenar nulos con 0

Unnamed: 0,Nombre,Edad,Ciudad,Ingreso,Edad * 2
0,Ana,23,San José,2500.0,46
1,Luis,35,Cartago,4000.0,70
2,Carlos,45,Heredia,3200.0,90
3,Sofía,29,Alajuela,3700.0,58
4,María,31,San José,Not a Number,62
5,Pedro,28,Cartago,4100.0,56
6,Lucía,26,Heredia,2800.0,52
7,Javier,42,Alajuela,Not a Number,84


In [None]:
df

In [None]:
df = df.fillna(0) 

In [None]:
df["Ingreso"].mean()            # Promedio
df["Edad"].min(), df["Edad"].max()
df["Ciudad"].value_counts()     # Frecuencia por categoría

In [None]:
# Agrupar y resumir
df.groupby("Ciudad")["Ingreso"].mean()

In [None]:
import matplotlib.pyplot as plt

# Histograma de edades
df["Edad"].hist(bins=5)
plt.title("Distribución de Edades")
plt.xlabel("Edad")
plt.ylabel("Frecuencia")
plt.show()

# Gráfico de barras por ciudad
df.groupby("Ciudad")["Ingreso"].mean().plot(kind="bar")
plt.title("Ingreso Promedio por Ciudad")
plt.ylabel("Ingreso")
plt.xticks(rotation=45)
plt.show()

In [None]:
df.to_csv("datos.csv", index=False)  # Guardar a CSV

In [None]:
df = pd.read_csv("datos.csv")  # Cargar desde CSV
df