In [4]:
import pandas as pd

In [5]:
# Series de pandas
numeros = [3, 4, 5, 6, 7]
series = pd.Series(numeros)
series, type(series)

(0    3
 1    4
 2    5
 3    6
 4    7
 dtype: int64,
 pandas.core.series.Series)

In [6]:
data = {
    "Nombre":["Ana", "Juan", "Pedro", "Maria", "Luis"],
    "Edad":[22, 25, 28, 23, 20],
    "Ciudad":["Barcelona", "Madrid", "Valencia", "Sevilla", "Bilboa"]
}

data, type(data)

({'Nombre': ['Ana', 'Juan', 'Pedro', 'Maria', 'Luis'],
  'Edad': [22, 25, 28, 23, 20],
  'Ciudad': ['Barcelona', 'Madrid', 'Valencia', 'Sevilla', 'Bilboa']},
 dict)

In [7]:
# Generar un DataFrame a partir de un diccionario

df = pd.DataFrame(data=data)
df

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22,Barcelona
1,Juan,25,Madrid
2,Pedro,28,Valencia
3,Maria,23,Sevilla
4,Luis,20,Bilboa


In [8]:
# Exportar DataFrame
df.to_csv("data.csv")

In [9]:
#Importar un DataFrame
import_df = pd.read_csv("data.csv", index_col=0)
import_df

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22,Barcelona
1,Juan,25,Madrid
2,Pedro,28,Valencia
3,Maria,23,Sevilla
4,Luis,20,Bilboa


In [10]:
# Selecciona una columna
nombres = df["Nombre"]
print(nombres, type(nombres))

0      Ana
1     Juan
2    Pedro
3    Maria
4     Luis
Name: Nombre, dtype: object <class 'pandas.core.series.Series'>


In [11]:
# Seleccionar una o más columnas
df[["Nombre", "Edad"]]

Unnamed: 0,Nombre,Edad
0,Ana,22
1,Juan,25
2,Pedro,28
3,Maria,23
4,Luis,20


In [12]:
# Filtrar por indice
fila = df.loc[2]
fila

Nombre       Pedro
Edad            28
Ciudad    Valencia
Name: 2, dtype: object

In [13]:
# Filtrar por condicion
df[df["Edad"]>23]

Unnamed: 0,Nombre,Edad,Ciudad
1,Juan,25,Madrid
2,Pedro,28,Valencia


In [14]:
filtro = (df["Edad"] > 23) & (df["Nombre"].str.startswith("P"))
df[filtro]

Unnamed: 0,Nombre,Edad,Ciudad
2,Pedro,28,Valencia


In [15]:
# Filtrar por Query
df.query("Edad < 23")

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22,Barcelona
4,Luis,20,Bilboa


In [16]:
df[df["Nombre"].isin(["Ana", "Carlos", "Luis"])]

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22,Barcelona
4,Luis,20,Bilboa


In [17]:
def longitud_5(nombre):
    return len(nombre) == 5

df[df["Nombre"].apply(longitud_5)]

Unnamed: 0,Nombre,Edad,Ciudad
2,Pedro,28,Valencia
3,Maria,23,Sevilla


In [18]:
# Filtrar por edades entre 25 y 35 años (inclusive)
df[df["Edad"].between(25, 35)]

Unnamed: 0,Nombre,Edad,Ciudad
1,Juan,25,Madrid
2,Pedro,28,Valencia


In [19]:
df

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22,Barcelona
1,Juan,25,Madrid
2,Pedro,28,Valencia
3,Maria,23,Sevilla
4,Luis,20,Bilboa


In [20]:
import numpy as np

In [21]:
data = {
    "Nombre":["Ana", "Juan", "Pedro", "Maria", "Luis"],
    "Edad":[22, 25, np.nan, 23, 20],
    "Ciudad":["Barcelona", "Madrid", "Valencia", None, "Bilboa"]
}

df = pd.DataFrame(data)
df

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22.0,Barcelona
1,Juan,25.0,Madrid
2,Pedro,,Valencia
3,Maria,23.0,
4,Luis,20.0,Bilboa


In [22]:
# Rellenar los valores faltantes
df_fill = df.fillna(
    {
        "Edad" : df["Edad"].mean(),
        "Ciudad" : "Desconocido"
    }
)

df_fill

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22.0,Barcelona
1,Juan,25.0,Madrid
2,Pedro,22.5,Valencia
3,Maria,23.0,Desconocido
4,Luis,20.0,Bilboa


In [23]:
df_sin_nan = df.dropna()
df_sin_nan

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22.0,Barcelona
1,Juan,25.0,Madrid
4,Luis,20.0,Bilboa


In [24]:
# Reemplazar valores especificos de alguna columna
df_reem = df.replace(
    {
        "Ciudad" : {None:"Desconocido"}
    }
)

df_reem

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22.0,Barcelona
1,Juan,25.0,Madrid
2,Pedro,,Valencia
3,Maria,23.0,Desconocido
4,Luis,20.0,Bilboa


In [25]:
# Interpolar valores
df_interpolado = df.copy()
df_interpolado["Edad"] = df["Edad"].interpolate()

df_interpolado

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22.0,Barcelona
1,Juan,25.0,Madrid
2,Pedro,24.0,Valencia
3,Maria,23.0,
4,Luis,20.0,Bilboa


In [26]:
data_duplicada = {
    'Nombre': ['Ana', 'Juan', 'Pedro', 'Maria', 'Luis', 'Ana', 'Juan'],
    'Edad': [22, 25, np.nan, 23, 20, 22, 25],
    'Ciudad': ['Barcelona', 'Madrid', 'Valencia', None, 'Bilbao', 'Barcelona', 'Madrid']
}

df_duplicada = pd.DataFrame(data_duplicada)
df_duplicada

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22.0,Barcelona
1,Juan,25.0,Madrid
2,Pedro,,Valencia
3,Maria,23.0,
4,Luis,20.0,Bilbao
5,Ana,22.0,Barcelona
6,Juan,25.0,Madrid


In [27]:
df_sin_duplicados = df_duplicada.drop_duplicates()
df_sin_duplicados

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22.0,Barcelona
1,Juan,25.0,Madrid
2,Pedro,,Valencia
3,Maria,23.0,
4,Luis,20.0,Bilbao


In [28]:
# Renombrar columnas
df_renombrado = df.rename(columns={"Nombre":"Name","Edad":"Age","Ciudad":"City"})
df_renombrado

Unnamed: 0,Name,Age,City
0,Ana,22.0,Barcelona
1,Juan,25.0,Madrid
2,Pedro,,Valencia
3,Maria,23.0,
4,Luis,20.0,Bilboa


In [29]:
# Ordenar columnas
columnas_ordenadas = ["Ciudad", "Edad", "Nombre"]
df_ordenado = df[columnas_ordenadas]
df_ordenado

Unnamed: 0,Ciudad,Edad,Nombre
0,Barcelona,22.0,Ana
1,Madrid,25.0,Juan
2,Valencia,,Pedro
3,,23.0,Maria
4,Bilboa,20.0,Luis


In [30]:
# Transformación de datos
def cuadrado(x):
    return x**2

df["Edad_Cuadrado"] = df["Edad"].apply(cuadrado)
df

Unnamed: 0,Nombre,Edad,Ciudad,Edad_Cuadrado
0,Ana,22.0,Barcelona,484.0
1,Juan,25.0,Madrid,625.0
2,Pedro,,Valencia,
3,Maria,23.0,,529.0
4,Luis,20.0,Bilboa,400.0


In [31]:
data = {
    'Nombre': ['Juan', 'Ana', 'Luis', 'Laura', 'Pedro', 'Carla'],
    'Ciudad': ['Madrid', 'Barcelona', 'Madrid', 'Valencia', 'Barcelona', 'Madrid'],
    'Edad': [25, 33, 30, 28, 45, 38],
    'Puntuacion': [80, 90, 85, 88, 75, 91]
}

df = pd.DataFrame(data)
df

Unnamed: 0,Nombre,Ciudad,Edad,Puntuacion
0,Juan,Madrid,25,80
1,Ana,Barcelona,33,90
2,Luis,Madrid,30,85
3,Laura,Valencia,28,88
4,Pedro,Barcelona,45,75
5,Carla,Madrid,38,91


In [32]:
# Agrupar datos por ciudad
grouped = df.groupby("Ciudad")
print(grouped.groups)

{'Barcelona': [1, 4], 'Madrid': [0, 2, 5], 'Valencia': [3]}


In [33]:
#Calcular el promedio de las edades y la suma de las puntuaciones por ciudad
aggregated_data = grouped.agg(
    {
        "Edad":"mean",
        "Puntuacion":"sum"
    }
)

aggregated_data


Unnamed: 0_level_0,Edad,Puntuacion
Ciudad,Unnamed: 1_level_1,Unnamed: 2_level_1
Barcelona,39.0,165
Madrid,31.0,256
Valencia,28.0,88


In [34]:
# Definir una función de agregación personalizada
def rango(series):
    return series.max() - series.min()

# Aplicar la función agg personalizada al grupo
aggregated_data_custom = grouped.agg(
    {
        "Edad":rango,
        "Puntuacion":rango
    }
)
aggregated_data_custom

Unnamed: 0_level_0,Edad,Puntuacion
Ciudad,Unnamed: 1_level_1,Unnamed: 2_level_1
Barcelona,12,15
Madrid,13,11
Valencia,0,0


In [35]:
data["Categoria"] = ["A", "B", "A", "B", "A", "B"]
df = pd.DataFrame(data)
df

Unnamed: 0,Nombre,Ciudad,Edad,Puntuacion,Categoria
0,Juan,Madrid,25,80,A
1,Ana,Barcelona,33,90,B
2,Luis,Madrid,30,85,A
3,Laura,Valencia,28,88,B
4,Pedro,Barcelona,45,75,A
5,Carla,Madrid,38,91,B


In [36]:
# Agrupar datos por ciudad y categoria
grouped_multi = df.groupby(["Ciudad", "Categoria"])
grouped_multi.groups


{('Barcelona', 'A'): [4], ('Barcelona', 'B'): [1], ('Madrid', 'A'): [0, 2], ('Madrid', 'B'): [5], ('Valencia', 'B'): [3]}

In [37]:
# Calcular la suma de las edades y puntuación por ciudad y por categoria
aggregated_data_multi = grouped_multi.agg(
    {
        "Edad":"sum",
        "Puntuacion":"mean"
    }
)
aggregated_data_multi

Unnamed: 0_level_0,Unnamed: 1_level_0,Edad,Puntuacion
Ciudad,Categoria,Unnamed: 2_level_1,Unnamed: 3_level_1
Barcelona,A,45,75.0
Barcelona,B,33,90.0
Madrid,A,55,82.5
Madrid,B,38,91.0
Valencia,B,28,88.0


In [38]:
# Agregar una columna
# Crear un DataFrame de ejemplo
data = {
    'Nombre': ['Juan', 'Ana', 'Luis', 'Laura'],
    'Edad': [25, 33, 30, 28]
}
df = pd.DataFrame(data)
df

Unnamed: 0,Nombre,Edad
0,Juan,25
1,Ana,33
2,Luis,30
3,Laura,28


In [39]:
# Agregar una columna
df["Ciudad"] = ["Madrid","Barcelona","Madrid","Valencia"]
df

Unnamed: 0,Nombre,Edad,Ciudad
0,Juan,25,Madrid
1,Ana,33,Barcelona
2,Luis,30,Madrid
3,Laura,28,Valencia


In [40]:
# Generamos una nueva fila
new_row = pd.Series({"Nombre":"Pedro", "Edad":45, "Ciudad":"Barcelona"})

# Agregamos fila al DataFrame
df = pd.concat([df, new_row.to_frame().T], ignore_index=True)
df

Unnamed: 0,Nombre,Edad,Ciudad
0,Juan,25,Madrid
1,Ana,33,Barcelona
2,Luis,30,Madrid
3,Laura,28,Valencia
4,Pedro,45,Barcelona


In [41]:
# Crear un DataFrame de ejemplo
data1 = {
    'Nombre': ['Juan', 'Ana', 'Luis', 'Laura'],
    'Edad': [25, 33, 30, 28]
}
df1 = pd.DataFrame(data1)
df1["Ciudad"] = ["Madrid","Barcelona","Madrid","Valencia"]

# Crear un segundo DataFrame de ejemplo
data2 = {
    'Nombre': ['Carla', 'Irene'],
    'Edad': [38, 27],
    'Ciudad': ['Madrid', 'Bilbao']
}

df2 = pd.DataFrame(data2)


In [42]:
df1

Unnamed: 0,Nombre,Edad,Ciudad
0,Juan,25,Madrid
1,Ana,33,Barcelona
2,Luis,30,Madrid
3,Laura,28,Valencia


In [43]:
df2

Unnamed: 0,Nombre,Edad,Ciudad
0,Carla,38,Madrid
1,Irene,27,Bilbao


In [44]:
df_combined = pd.concat([df1, df2], ignore_index=True)
df_combined

Unnamed: 0,Nombre,Edad,Ciudad
0,Juan,25,Madrid
1,Ana,33,Barcelona
2,Luis,30,Madrid
3,Laura,28,Valencia
4,Carla,38,Madrid
5,Irene,27,Bilbao


In [45]:
import numpy as np

In [46]:
# Crear arreglo de 1 dimensión con 5 elementos
arr1 = np.array([1,2,3,4,5,6])

print("Arreglo 1D:", arr1)
print("Forma(shape):", arr1.shape)
print("Tipo de datos (dtype):", arr1.dtype)

Arreglo 1D: [1 2 3 4 5 6]
Forma(shape): (6,)
Tipo de datos (dtype): int64


In [47]:
# Cambiar la forma el arreglo a una matriz 2x3
arr2 = arr1.reshape((2,3))

print("Arreglo 2D:\n", arr2)
print("Forma(shape):", arr2.shape)
print("Tipo de datos (dtype):", arr2.dtype)

Arreglo 2D:
 [[1 2 3]
 [4 5 6]]
Forma(shape): (2, 3)
Tipo de datos (dtype): int64


In [48]:
# Crear una matriz con forma 4x4 con números aleatorios entre 0 y 1
matrix = np.random.rand(4,4)
print("Arreglo 2D:\n", matrix)
print("Forma(shape):", matrix.shape)
print("Tipo de datos (dtype):", matrix.dtype)

Arreglo 2D:
 [[0.18566574 0.44709484 0.41541455 0.55332295]
 [0.93624628 0.94994655 0.11727549 0.54172923]
 [0.57029338 0.06989198 0.54726978 0.41279949]
 [0.95899793 0.8393595  0.73181155 0.37294459]]
Forma(shape): (4, 4)
Tipo de datos (dtype): float64


In [49]:
# Crear un arreglo de 2 dimensiones a partir de una lista de listas
arr = np.array([[1,2,3],[4,5,6],[7,8,9]])
print(arr, type(arr))

[[1 2 3]
 [4 5 6]
 [7 8 9]] <class 'numpy.ndarray'>


In [50]:
# Crear un arreglo de ceros con una forma 3x4
arr = np.zeros((3,4))
print(arr)

[[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]


In [51]:
# Crear un arreglo de unos con una forma 2x2
arr = np.ones((2,2))
print(arr)

[[1. 1.]
 [1. 1.]]


In [52]:
# Crear una matriz identidad
arr = np.eye(4)
print(arr)

[[1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 1. 0.]
 [0. 0. 0. 1.]]


In [53]:
# Crear un arreglo 3D de ceros con forma 2x3x4
arr = np.zeros((2,3,4))
arr[0,1,2] = 5 # Actualiza por 5 en esa posición
print(arr)

[[[0. 0. 0. 0.]
  [0. 0. 5. 0.]
  [0. 0. 0. 0.]]

 [[0. 0. 0. 0.]
  [0. 0. 0. 0.]
  [0. 0. 0. 0.]]]


In [54]:
arr = np.random.rand(2,5)
print(arr)

[[0.29746174 0.41974808 0.20570911 0.65943579 0.92271073]
 [0.32908543 0.7726882  0.56010881 0.28872678 0.81445121]]


In [55]:
print(arr.T)

[[0.29746174 0.32908543]
 [0.41974808 0.7726882 ]
 [0.20570911 0.56010881]
 [0.65943579 0.28872678]
 [0.92271073 0.81445121]]


In [56]:
arr1 = np.array([[1,2],[3,4]])
arr2 = np.array([[5,6],[7,8]])
print(arr1,"\n\n",arr2)

[[1 2]
 [3 4]] 

 [[5 6]
 [7 8]]


In [57]:
# Concatenar arreglos horizontalmente
arr_h = np.hstack((arr1, arr2))
print(arr_h)

[[1 2 5 6]
 [3 4 7 8]]


In [58]:
# Concatenar arreglos verticalmente
arr_v = np.vstack((arr1, arr2))
print(arr_v)

[[1 2]
 [3 4]
 [5 6]
 [7 8]]


In [59]:
arr = np.array([1,2,3,4,5])
arr

array([1, 2, 3, 4, 5])

In [60]:
# Calcular la suma de elementos
suma = np.sum(arr)
print(suma)

15


In [61]:
# Calcular el promedio de los elementos
promedio = np.mean(arr)
print(promedio)

3.0


In [62]:
# Calcular la mediana
mediana = np.median(arr)
print(mediana)

3.0


In [63]:
# Calcular el producto de los elementos
producto = np.prod(arr)
print(producto)

120


In [64]:
# Desviacion estandar
desv_est = np.std(arr)
print(desv_est)

1.4142135623730951


In [65]:
# Varianza
var = np.var(arr)
print(var)

2.0


In [66]:
# minimo de los elementos
minimo = np.min(arr)
# maximo de los elementos
maximo = np.max(arr)
print(minimo, maximo)

1 5


In [67]:
# Calcular la suma acumulativa
cumsum = np.cumsum(arr)
print(cumsum)

[ 1  3  6 10 15]


In [68]:
# Suma element-wise
arr + arr

array([ 2,  4,  6,  8, 10])

In [69]:
# Resta element-wise
arr - arr

array([0, 0, 0, 0, 0])

In [70]:
arr * arr

array([ 1,  4,  9, 16, 25])

In [71]:
arr / arr

array([1., 1., 1., 1., 1.])

In [72]:
import pandas as pd
import numpy as np

In [73]:
# Crear un arreglo de numpy
data = np.array([[1,2,3],[4,5,6],[7,8,9]])

# Crear un DataFrame a partir del arreglo de Numpy
df = pd.DataFrame(data, columns=["A", "B", "C"])
df

Unnamed: 0,A,B,C
0,1,2,3
1,4,5,6
2,7,8,9


In [74]:
data = {
    "A" : [1,4,7],
    "B" : [2,5,8],
    "C" : [3,6,9]
}
df = pd.DataFrame(data)
df

Unnamed: 0,A,B,C
0,1,2,3
1,4,5,6
2,7,8,9


In [75]:
# Convertir un DataFrame a un array de Numpy
arr = df.to_numpy()
arr

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [76]:
df.values

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [77]:
# Calcular el promedio de cada columna utilizando numpy
mean_colums = np.mean(df, axis=0)
mean_colums

A    4.0
B    5.0
C    6.0
dtype: float64

In [78]:
df.mean(axis=0)

A    4.0
B    5.0
C    6.0
dtype: float64

In [79]:
df.mean(axis=1)

0    2.0
1    5.0
2    8.0
dtype: float64