In [26]:
import pandas as pd

In [27]:
# Series de pandas
numeros = [3,5,7,9]
series = pd.Series(numeros)
series, type(series)

(0    3
 1    5
 2    7
 3    9
 dtype: int64,
 pandas.core.series.Series)

In [28]:
data = {
    "Nombre": ["Ana", "Luis", "Carlos", "Marta"],
    "Edad":[20, 43, 18, 35],
    "Ciudad":["Madrid", "Medellin", "Valencia", "Sevilla" ]
}
print(data), type(data)

{'Nombre': ['Ana', 'Luis', 'Carlos', 'Marta'], 'Edad': [20, 43, 18, 35], 'Ciudad': ['Madrid', 'Medellin', 'Valencia', 'Sevilla']}


(None, dict)

In [29]:
# Generacion de DataFrame a partir de un diccionario
df = pd.DataFrame(data = data)
df.head()

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,20,Madrid
1,Luis,43,Medellin
2,Carlos,18,Valencia
3,Marta,35,Sevilla


In [30]:
# Exportar dataframe a un archivo CSV
df.to_csv("data.csv")

In [31]:
#importar un dataframe desde un archivo CSV
import_df = pd.read_csv("data.csv", index_col = 0)
import_df.head()

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,20,Madrid
1,Luis,43,Medellin
2,Carlos,18,Valencia
3,Marta,35,Sevilla


In [32]:
#Seleccion de columna de datos
nombres = df["Nombre"]
nombres.head()

0       Ana
1      Luis
2    Carlos
3     Marta
Name: Nombre, dtype: object

In [33]:
df[["Nombre", "Ciudad"]]

Unnamed: 0,Nombre,Ciudad
0,Ana,Madrid
1,Luis,Medellin
2,Carlos,Valencia
3,Marta,Sevilla


In [34]:
fila = df.loc[1]
fila.head()

Nombre        Luis
Edad            43
Ciudad    Medellin
Name: 1, dtype: object

In [35]:
df[df["Edad"] > 20]

Unnamed: 0,Nombre,Edad,Ciudad
1,Luis,43,Medellin
3,Marta,35,Sevilla


In [36]:
(df["Nombre"].str.startswith("L"))

0    False
1     True
2    False
3    False
Name: Nombre, dtype: bool

In [37]:
filtro = (df["Edad"]>30) & (df["Ciudad"].str.startswith("M"))
df[filtro]

Unnamed: 0,Nombre,Edad,Ciudad
1,Luis,43,Medellin


In [38]:
df.query("Edad < 40")

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,20,Madrid
2,Carlos,18,Valencia
3,Marta,35,Sevilla


In [39]:
df[df["Nombre"].isin(["Carlos", "Ana", "Jose"])]

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,20,Madrid
2,Carlos,18,Valencia


In [40]:
import numpy as np

In [41]:
data = {
    "Nombre": ["Ana", "Luis", "Carlos", "Marta", "Jose", "Juan"],
    "Edad":[20, 43, np.nan, 35, 28, 50],
    "Ciudad":["Madrid", "Medellin", "Valencia", None, "Barcelona", "Bilbao" ],
}

df =pd.DataFrame(data)
df

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,20.0,Madrid
1,Luis,43.0,Medellin
2,Carlos,,Valencia
3,Marta,35.0,
4,Jose,28.0,Barcelona
5,Juan,50.0,Bilbao


In [42]:
# Rellenar valores nulos con la media de la columna
df_fill= df.fillna(
    {
        "Edad": df['Edad'].mean(),
        "Ciudad": "Desconocida"
        
    }
)
df_fill.head()

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,20.0,Madrid
1,Luis,43.0,Medellin
2,Carlos,35.2,Valencia
3,Marta,35.0,Desconocida
4,Jose,28.0,Barcelona


In [43]:
#Eliminacion valores nulos
df_sin_nan = df.dropna()
df_sin_nan.head()

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,20.0,Madrid
1,Luis,43.0,Medellin
4,Jose,28.0,Barcelona
5,Juan,50.0,Bilbao


In [44]:
#Remplazar valores de una columna
df_replace = df.replace(
    {
        "Ciudad": {None: "Desconocida"},
        "Edad": {np.nan: df['Edad'].mean()}
    }
)
df_replace.head()

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,20.0,Madrid
1,Luis,43.0,Medellin
2,Carlos,35.2,Valencia
3,Marta,35.0,Desconocida
4,Jose,28.0,Barcelona


In [45]:
# Interpolar valores
df_interpolado = df.copy()
df_interpolado["Edad"] = df["Edad"].interpolate()
df_interpolado.head()

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,20.0,Madrid
1,Luis,43.0,Medellin
2,Carlos,39.0,Valencia
3,Marta,35.0,
4,Jose,28.0,Barcelona


In [46]:
data_duplicada= {
    "Nombre": ["Ana", "Luis", "Carlos", "Marta", "Jose", "Juan", "Ana", "Luis"],
    "Edad":[20, 43, np.nan, 35, 28, 50, 20, 43],
    "Ciudad":["Madrid", "Medellin", "Valencia", None, "Barcelona", "Bilbao", "Madrid", "Medellin"],
}
df_duplicados = pd.DataFrame(data_duplicada)
df_duplicados


Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,20.0,Madrid
1,Luis,43.0,Medellin
2,Carlos,,Valencia
3,Marta,35.0,
4,Jose,28.0,Barcelona
5,Juan,50.0,Bilbao
6,Ana,20.0,Madrid
7,Luis,43.0,Medellin


In [47]:
# Eliminacion de duplicados
df_sin_duplicados = df_duplicados.drop_duplicates()
df_sin_duplicados

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,20.0,Madrid
1,Luis,43.0,Medellin
2,Carlos,,Valencia
3,Marta,35.0,
4,Jose,28.0,Barcelona
5,Juan,50.0,Bilbao


In [48]:
#Cambiar nombre de columnas
df_renombrado = df.rename(columns={"Nombre": "Name", "Edad": "Age", "Ciudad": "City"})
df_renombrado

Unnamed: 0,Name,Age,City
0,Ana,20.0,Madrid
1,Luis,43.0,Medellin
2,Carlos,,Valencia
3,Marta,35.0,
4,Jose,28.0,Barcelona
5,Juan,50.0,Bilbao


In [49]:
#Ordenar Columnas

columnasOrdenadas = ["Ciudad", "Edad", "Nombre"]
df_ordenado = df[columnasOrdenadas]
df_ordenado

Unnamed: 0,Ciudad,Edad,Nombre
0,Madrid,20.0,Ana
1,Medellin,43.0,Luis
2,Valencia,,Carlos
3,,35.0,Marta
4,Barcelona,28.0,Jose
5,Bilbao,50.0,Juan


In [50]:
data= {
    "Nombre": ["Ana", "Luis", "Carlos", "Marta", "Jose", "Juan", "Camilo"],
    "Edad":[20, 43, 30, 35, 28, 50, 40],
    "Ciudad":["Madrid", "Bilbao", "Valencia", "Valencia", "Barcelona", "Bilbao", "Valencia"],
    "Puntuacion": [85, 90, 78, 92, 88, 95, 80]
}
df =pd.DataFrame(data)
df

Unnamed: 0,Nombre,Edad,Ciudad,Puntuacion
0,Ana,20,Madrid,85
1,Luis,43,Bilbao,90
2,Carlos,30,Valencia,78
3,Marta,35,Valencia,92
4,Jose,28,Barcelona,88
5,Juan,50,Bilbao,95
6,Camilo,40,Valencia,80


In [51]:
#agrupacion de datos por ciudad
groupped = df.groupby("Ciudad")
print(groupped.groups)

{'Barcelona': [4], 'Bilbao': [1, 5], 'Madrid': [0], 'Valencia': [2, 3, 6]}


In [52]:
#Calcular la suma de las edades y la puntuacion por ciudad
aggregated_data= groupped.agg(
    {
        "Edad": "mean",
        "Puntuacion": "sum"
    }
)
aggregated_data 

Unnamed: 0_level_0,Edad,Puntuacion
Ciudad,Unnamed: 1_level_1,Unnamed: 2_level_1
Barcelona,28.0,88
Bilbao,46.5,185
Madrid,20.0,85
Valencia,35.0,250


In [53]:
#Definir una funcion de agregacion personalizada

def rango(series):
    return series.max()- series.min()
#aplicacion de la logica agg por grupo
aggregated_data_custom = groupped.agg(
    {
        "Edad": rango,
        "Puntuacion": rango
    }
)
aggregated_data_custom

Unnamed: 0_level_0,Edad,Puntuacion
Ciudad,Unnamed: 1_level_1,Unnamed: 2_level_1
Barcelona,0,0
Bilbao,7,5
Madrid,0,0
Valencia,10,14


In [54]:
data

{'Nombre': ['Ana', 'Luis', 'Carlos', 'Marta', 'Jose', 'Juan', 'Camilo'],
 'Edad': [20, 43, 30, 35, 28, 50, 40],
 'Ciudad': ['Madrid',
  'Bilbao',
  'Valencia',
  'Valencia',
  'Barcelona',
  'Bilbao',
  'Valencia'],
 'Puntuacion': [85, 90, 78, 92, 88, 95, 80]}

In [55]:
data["Categoria"] = ["A", "B", "A", "B", "A", "B", "A"]
df = pd.DataFrame(data)
df

Unnamed: 0,Nombre,Edad,Ciudad,Puntuacion,Categoria
0,Ana,20,Madrid,85,A
1,Luis,43,Bilbao,90,B
2,Carlos,30,Valencia,78,A
3,Marta,35,Valencia,92,B
4,Jose,28,Barcelona,88,A
5,Juan,50,Bilbao,95,B
6,Camilo,40,Valencia,80,A


In [56]:
#Agrupar datos por categoria y ciudad
groupped_multi = df.groupby (["Categoria", "Ciudad"])
groupped_multi.groups

{('A', 'Barcelona'): [4], ('A', 'Madrid'): [0], ('A', 'Valencia'): [2, 6], ('B', 'Bilbao'): [1, 5], ('B', 'Valencia'): [3]}

In [57]:
#Calcular la suma de las edades y puntuacion por categoria y ciudad
aggregated_data_multi = groupped_multi.agg(
    {
    "Edad":"sum",
    "Puntuacion":"mean"
}
    )
aggregated_data_multi

Unnamed: 0_level_0,Unnamed: 1_level_0,Edad,Puntuacion
Categoria,Ciudad,Unnamed: 2_level_1,Unnamed: 3_level_1
A,Barcelona,28,88.0
A,Madrid,20,85.0
A,Valencia,70,79.0
B,Bilbao,93,92.5
B,Valencia,35,92.0


In [58]:
#Agregacion de una nueva columna
#Creacion de DataFrame

data= {
    "Nombre": ["Ana", "Luis", "Carlos", "Marta"],
    "Edad":[20, 43, 30, 35]
}
df = pd.DataFrame(data)
df


Unnamed: 0,Nombre,Edad
0,Ana,20
1,Luis,43
2,Carlos,30
3,Marta,35


In [59]:
#Agregar un DataFrame a una columna
df["Ciudad"] = ["Madrid", "Bilbao", "Madrid", "Sevilla"]
df

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,20,Madrid
1,Luis,43,Bilbao
2,Carlos,30,Madrid
3,Marta,35,Sevilla


In [60]:
#agregar una nueva fila al DataFrame
new_row = pd.Series({"Nombre": "Juan", "Edad": 38, "Ciudad": "Bilbao"})
#agregar la fila al DataFrame existente
df = pd.concat([df, new_row.to_frame().T], ignore_index=True)
df

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,20,Madrid
1,Luis,43,Bilbao
2,Carlos,30,Madrid
3,Marta,35,Sevilla
4,Juan,38,Bilbao


In [61]:
#Crear un dataframe de ejemplo
data= {
    "Nombre": ["Ana", "Luis", "Carlos", "Marta"],
    "Edad":[20, 43, 30, 35]
}
df1 = pd.DataFrame(data) #le asignamos a df1 el DataFrame creado
df1["Ciudad"] = ["Madrid", "Bilbao", "Madrid", "Sevilla"] #agregamos una columna Ciudad al df1


#Crear un segundo dataframe de ejemplo
data2= {
    "Nombre": ["Jose", "Sandra", "Camilo"],   
    "Edad":[28, 50, 40],
    "Ciudad": ["Barcelona", "Madrid", "Valencia"]
    }
df2= pd.DataFrame(data2)

#Concatenar los dos dataframes
df_combined = pd.concat([df1, df2], ignore_index=True)
df_combined


Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,20,Madrid
1,Luis,43,Bilbao
2,Carlos,30,Madrid
3,Marta,35,Sevilla
4,Jose,28,Barcelona
5,Sandra,50,Madrid
6,Camilo,40,Valencia


In [62]:
#Uso de numpy en pandas
import numpy as np

In [63]:
#Crear un arreglo de 1 dimension con 5 elementos
arr1 = np.array([10, 20, 30, 40, 50,60])
print("Arreglo 1d: ", arr1)
print("Tipo de dato (dtype): ", arr1.dtype)
print("forma(shape): ", arr1.shape)

Arreglo 1d:  [10 20 30 40 50 60]
Tipo de dato (dtype):  int64
forma(shape):  (6,)


In [64]:
#Cambiar la forma del arreglo a una matriz de 2x3
arr2 = np.reshape(arr1,(2,3))
print("Arreglo 2d: ", arr2)
print("Tipo de dato (dtype): ", arr2.dtype)
print("forma(shape): ", arr2.shape)

Arreglo 2d:  [[10 20 30]
 [40 50 60]]
Tipo de dato (dtype):  int64
forma(shape):  (2, 3)


In [65]:
#Crear una matriz de 4x4 con valores aleatorios entre 0 y 1
matrix = np.random.rand(4,4)
print("Matriz 4x4: \n", matrix)
print("Tipo de dato (dtype): ", matrix.dtype)
print("forma(shape): ", matrix.shape)

Matriz 4x4: 
 [[0.59875102 0.34516838 0.25924177 0.80086677]
 [0.1571223  0.32208642 0.46852455 0.01194313]
 [0.38252492 0.96079335 0.46572778 0.59071279]
 [0.66858278 0.24436101 0.78084487 0.74395404]]
Tipo de dato (dtype):  float64
forma(shape):  (4, 4)


In [66]:
#Crear un arreglo de 2 dimensiones a partir de una lista de listas
arr = np.array([[1,2,3], [4,5,6], [7,8,9]])
print("Arreglo: \n", arr)

Arreglo: 
 [[1 2 3]
 [4 5 6]
 [7 8 9]]


In [67]:
#Crear un arreglo de ceros con una forma de 3x4
arr_zeros = np.zeros((3,4))
print("Arreglo de ceros 3x4: \n", arr_zeros)

Arreglo de ceros 3x4: 
 [[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]


In [68]:
#crear un arreglo de unos con una forma de 2x5
arr_ones = np.ones((2,5))
print("Arreglo de unos 2x5: \n", arr_ones)

Arreglo de unos 2x5: 
 [[1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1.]]


In [69]:
#Crear un Arreglo con unos de una forma  2x2
arr = np.ones((2,2))
arr[1,1] = 5
print("Arreglo modificado 2x2: \n", arr)

Arreglo modificado 2x2: 
 [[1. 1.]
 [1. 5.]]


In [70]:
#Crear matriz de identidad de 4x4
identity_matrix = np.eye(4)
print("Matriz de identidad 4x4: \n", identity_matrix)

Matriz de identidad 4x4: 
 [[1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 1. 0.]
 [0. 0. 0. 1.]]


In [71]:
#Crear un arreglo en 3d de ceros con una forma de 2x3x4
arr_3d = np.zeros((2,3,4))
print("Arreglo 3d de ceros 2x3x4: \n", arr_3d)
print("Tipo de dato (dtype): ", arr_3d.dtype)

Arreglo 3d de ceros 2x3x4: 
 [[[0. 0. 0. 0.]
  [0. 0. 0. 0.]
  [0. 0. 0. 0.]]

 [[0. 0. 0. 0.]
  [0. 0. 0. 0.]
  [0. 0. 0. 0.]]]
Tipo de dato (dtype):  float64


In [74]:
arr = np.random.rand(2,5)
print("Arreglo 3d aleatorio 2x5: \n", arr)
print("Tipo de dato (dtype): ", arr.dtype)

Arreglo 3d aleatorio 2x5: 
 [[0.16452313 0.04597313 0.41322781 0.77195996 0.4012859 ]
 [0.58727023 0.30600164 0.84167077 0.8987737  0.96802336]]
Tipo de dato (dtype):  float64


In [75]:
# como invertir los valores de un arreglo
arr.T

array([[0.16452313, 0.58727023],
       [0.04597313, 0.30600164],
       [0.41322781, 0.84167077],
       [0.77195996, 0.8987737 ],
       [0.4012859 , 0.96802336]])

In [76]:
arra1 = np.array([[1,2], [3,4]])
arra2 = np.array([[5,6], [7,8]])
arra1, arra2

(array([[1, 2],
        [3, 4]]),
 array([[5, 6],
        [7, 8]]))

In [None]:
# Concatenacion de arreglos horizontalmente
arr_h = np.hstack((arra1, arra2))
arr_h

array([[1, 2, 5, 6],
       [3, 4, 7, 8]])

In [78]:
#Concatenacion de arreglos verticalmente
arr_v = np.vstack((arra1, arra2))
arr_v

array([[1, 2],
       [3, 4],
       [5, 6],
       [7, 8]])

In [79]:
arr = np.array([1,2,3,4,5])
arr

array([1, 2, 3, 4, 5])

In [80]:
#Calcular la suma de todos los elementos del arreglo
suma = np.sum(arr)
suma

np.int64(15)

In [81]:
#Calcular promedio de los elementos del arreglo
promedio = np.mean(arr)
promedio

np.float64(3.0)

In [82]:
#Calcular la mediana de los elementos del arreglo
mediana = np.median(arr)
mediana

np.float64(3.0)

In [83]:
#Calculo de producto
producto = np.prod(arr)
producto

np.int64(120)

In [84]:
#Desviacion estandar
desviacion = np.std(arr)
desviacion

np.float64(1.4142135623730951)

In [85]:
#Calcular la varianza de los elementos del arreglo
varianza = np.var(arr)
varianza

np.float64(2.0)

In [87]:
#minimo
minimo  = np.min(arr)

#maximo
maximo = np.max(arr)

minimo, maximo


(np.int64(1), np.int64(5))

In [88]:
#suma acumulada
suma_acumulada = np.cumsum(arr)
suma_acumulada

array([ 1,  3,  6, 10, 15])

In [90]:
#suma de elementos wise
arr + arr

array([ 2,  4,  6,  8, 10])

In [91]:
#multiplicacion de elementos wise
arr * arr

array([ 1,  4,  9, 16, 25])

In [92]:
#mod de elementos wise
arr % 2

array([1, 0, 1, 0, 1])