In [None]:
#Metodos y formulas que podemos realizar por PANDAS


import pandas as pd

In [5]:
#Series de pandas
numeros = [3, 4, 5, 6, 7]
serie = pd.Series(numeros)
serie, type(serie)

(0    3
 1    4
 2    5
 3    6
 4    7
 dtype: int64,
 pandas.Series)

In [6]:
data = {
    
    "Nombre" : ["Kei", "Kenia", "Ana"],
    "Edad" : [22, 16, 15],
    "Ciudad" : ["Cartagena", "Arjona", "Medellin"]

}

data, type(data)

({'Nombre': ['Kei', 'Kenia', 'Ana'],
  'Edad': [22, 16, 15],
  'Ciudad': ['Cartagena', 'Arjona', 'Medellin']},
 dict)

In [7]:
#Generar un dataframe a partir de un diccionario

df = pd.DataFrame(data=data)
df

Unnamed: 0,Nombre,Edad,Ciudad
0,Kei,22,Cartagena
1,Kenia,16,Arjona
2,Ana,15,Medellin


In [8]:
#Exportar DataFrame

df.to_csv("data.csv")



In [9]:
#Importar DataFrame

df = pd.read_csv("data.csv", index_col=0)
df


Unnamed: 0,Nombre,Edad,Ciudad
0,Kei,22,Cartagena
1,Kenia,16,Arjona
2,Ana,15,Medellin


In [10]:
#Seleccionar una columna

nombres = df["Nombre"]
print(nombres, type(nombres))

0      Kei
1    Kenia
2      Ana
Name: Nombre, dtype: str <class 'pandas.Series'>


In [11]:
#Seleccionar varias columnas

df[["Nombre", "Edad"]]

Unnamed: 0,Nombre,Edad
0,Kei,22
1,Kenia,16
2,Ana,15


In [12]:
#Para seleccionar filas

Fila = df.loc[2]
Fila

Nombre         Ana
Edad            15
Ciudad    Medellin
Name: 2, dtype: object

In [13]:
#Filtrar por condicion

df[df["Edad"]>15]

Unnamed: 0,Nombre,Edad,Ciudad
0,Kei,22,Cartagena
1,Kenia,16,Arjona


In [14]:
#Para filtrar por datos con inicio de una letra

Filtro = (df["Edad"]>15) & (df["Nombre"].str.startswith("K"))
df[Filtro]

Unnamed: 0,Nombre,Edad,Ciudad
0,Kei,22,Cartagena
1,Kenia,16,Arjona


In [15]:
#Filtrar por nombre especifico

df[df["Nombre"].isin(["Kenia", "Ana"])]

Unnamed: 0,Nombre,Edad,Ciudad
1,Kenia,16,Arjona
2,Ana,15,Medellin


In [16]:
def longitud_5(nombre):
    return len(nombre)== 5
df[df["Nombre"].apply(longitud_5)]

Unnamed: 0,Nombre,Edad,Ciudad
1,Kenia,16,Arjona


In [17]:
df[df["Edad"].between(15,20)]

Unnamed: 0,Nombre,Edad,Ciudad
1,Kenia,16,Arjona
2,Ana,15,Medellin


In [18]:
df

Unnamed: 0,Nombre,Edad,Ciudad
0,Kei,22,Cartagena
1,Kenia,16,Arjona
2,Ana,15,Medellin


In [19]:
import numpy as np

In [20]:
data = {  "Nombre" : ["Kei", "Kenia", "Ana"],
    "Edad" : [22, np.nan, 15],
    "Ciudad" : ["Cartagena", None, "Medellin"]
}
df = pd.DataFrame(data)
df 

Unnamed: 0,Nombre,Edad,Ciudad
0,Kei,22.0,Cartagena
1,Kenia,,
2,Ana,15.0,Medellin


In [21]:
#Rellenar valores faltantes

df_filled = df.fillna({
    "Edad": df["Edad"].mean(),
    "Ciudad": "Desconocida"
})

df_filled

Unnamed: 0,Nombre,Edad,Ciudad
0,Kei,22.0,Cartagena
1,Kenia,18.5,Desconocida
2,Ana,15.0,Medellin


In [22]:
#Eliminar las filas sin datos

df_sin_nulos = df.dropna()
df_sin_nulos

Unnamed: 0,Nombre,Edad,Ciudad
0,Kei,22.0,Cartagena
2,Ana,15.0,Medellin


In [23]:
#Remplazar valor especifico de una columna fila

df_replaced = df.replace({
    "Ciudad": {None: "Bogota"}
})
df_replaced

Unnamed: 0,Nombre,Edad,Ciudad
0,Kei,22.0,Cartagena
1,Kenia,,Bogota
2,Ana,15.0,Medellin


In [24]:
#Interpolar valores faltantes

df_interpolated = df.copy()
df_interpolated["Edad"] = df["Edad"].interpolate()
df_interpolated

Unnamed: 0,Nombre,Edad,Ciudad
0,Kei,22.0,Cartagena
1,Kenia,18.5,
2,Ana,15.0,Medellin


In [25]:
#Data duplicada

data_duplicada = {
    "Nombre" : ["Kei", "Kenia", "Ana", "Kenia"],
    "Edad" : [22, 16, 15, 16],    
    "Ciudad" : ["Cartagena", "Arjona", "Medellin", "Arjona"]
    }
df_duplicada = pd.DataFrame(data_duplicada)
df_duplicada

Unnamed: 0,Nombre,Edad,Ciudad
0,Kei,22,Cartagena
1,Kenia,16,Arjona
2,Ana,15,Medellin
3,Kenia,16,Arjona


In [26]:
#Como quitar los duplicados

df_sin_duplicados = df_duplicada.drop_duplicates()
df_sin_duplicados   

Unnamed: 0,Nombre,Edad,Ciudad
0,Kei,22,Cartagena
1,Kenia,16,Arjona
2,Ana,15,Medellin


In [27]:
#Renombrar columnas

df_renombrado = df.rename(columns={
    "Nombre": "Nombres",
    "Edad": "Edades",
    "Ciudad": "Ciudades"})
df_renombrado

Unnamed: 0,Nombres,Edades,Ciudades
0,Kei,22.0,Cartagena
1,Kenia,,
2,Ana,15.0,Medellin


In [28]:
#Ordenar columnas

columnas_ordenadas = ["Ciudad", "Nombre", "Edad"]
df_ordenado = df[columnas_ordenadas]
df_ordenado 

Unnamed: 0,Ciudad,Nombre,Edad
0,Cartagena,Kei,22.0
1,,Kenia,
2,Medellin,Ana,15.0


In [29]:
#Transformación de datos

def cuadrado(x):
    return x ** 2   

df["Edad_Cuadrado"] = df["Edad"].apply(cuadrado)
df  

Unnamed: 0,Nombre,Edad,Ciudad,Edad_Cuadrado
0,Kei,22.0,Cartagena,484.0
1,Kenia,,,
2,Ana,15.0,Medellin,225.0


In [30]:
#Crear un nuevo DataFrame

data2 = {  
    "Nombre" : ["Keila", "Kenia", "Ana", "Marisol", "Jamer"],
    "Ciudad" : ["Cartagena", "Arjona", "Cartagena", "Arjona", "Arjona"],
    "Edad" : [23, 16, 15, 22, 18],
    "Puntuacion": [85, 90, 78, 88, 92]
}

df2 = pd.DataFrame(data2)
df2
         

Unnamed: 0,Nombre,Ciudad,Edad,Puntuacion
0,Keila,Cartagena,23,85
1,Kenia,Arjona,16,90
2,Ana,Cartagena,15,78
3,Marisol,Arjona,22,88
4,Jamer,Arjona,18,92


In [31]:
#Agrupar datos por ciudad por indice

gruped= df2.groupby("Ciudad")
print(gruped.groups)

{'Arjona': [1, 3, 4], 'Cartagena': [0, 2]}


In [32]:
#Agregación de datos 
#Ejemplo: Calcular la suma de las edades y puntuación por ciudad

agregated = gruped.agg({
    "Edad": "mean",
    "Puntuacion": "sum"
})

agregated

Unnamed: 0_level_0,Edad,Puntuacion
Ciudad,Unnamed: 1_level_1,Unnamed: 2_level_1
Arjona,18.666667,270
Cartagena,19.0,163


In [33]:
#Funciones de agregación personalizadas
#Ejemplo: Calcular el rango de edades y puntuación por ciudad

def rango(series):
    return series.max() - series.min()

#Agregamos la función personalizada al agrupamiento
agregated_custom = gruped.agg({
    "Edad": rango,
    "Puntuacion": rango
})
print(agregated_custom)

           Edad  Puntuacion
Ciudad                     
Arjona        6           4
Cartagena     8           7


In [37]:
data2 ["Categoria"] = ["A", "B", "A", "B", "A"]
df2 = pd.DataFrame(data2)
df2

Unnamed: 0,Nombre,Ciudad,Edad,Puntuacion,Categoria
0,Keila,Cartagena,23,85,A
1,Kenia,Arjona,16,90,B
2,Ana,Cartagena,15,78,A
3,Marisol,Arjona,22,88,B
4,Jamer,Arjona,18,92,A


In [38]:
#Agrupación de datos por ciudad y categoría (Multiagrupado)
grouped_multi = df2.groupby(["Ciudad", "Categoria"])
grouped_multi.groups

{('Arjona', 'A'): RangeIndex(start=4, stop=5, step=1),
 ('Arjona', 'B'): RangeIndex(start=1, stop=5, step=2),
 ('Cartagena', 'A'): RangeIndex(start=0, stop=4, step=2)}

In [39]:
#Calcular la suma de las edades y puntuación por ciudad y categoría

aggregated_multi = grouped_multi.agg({
    "Edad": "sum", 
    "Puntuacion": "mean"
})

aggregated_multi

Unnamed: 0_level_0,Unnamed: 1_level_0,Edad,Puntuacion
Ciudad,Categoria,Unnamed: 2_level_1,Unnamed: 3_level_1
Arjona,A,18,92.0
Arjona,B,38,89.0
Cartagena,A,38,81.5


In [None]:
#Agregar nuevos datos a un DataFrame existente

data = {
      'Nombre': ['Laura', 'Miguel'],
      'Edad': [19, 21]
}
df_new = pd.DataFrame(data)
df_new

Unnamed: 0,Nombre,Edad
0,Laura,19
1,Miguel,21


In [44]:
#Agregar un columna al nuevo DataFrame
df_new['Ciudad'] = ['Cali', 'Barranquilla']
df_new  

Unnamed: 0,Nombre,Edad,Ciudad
0,Laura,19,Cali
1,Miguel,21,Barranquilla


In [46]:
#Insertar una nueva fila al DataFrame existente
#Crear la fila
new_row = pd.Series({ 
    "Nombre": "Sofia", "Edad": 24, 
    "Ciudad": "Lima" 
})

#Agregar la fila al DataFrame
df2= pd.concat([df2, new_row.to_frame().T], ignore_index=True)

df2

Unnamed: 0,Nombre,Ciudad,Edad,Puntuacion,Categoria
0,Keila,Cartagena,23,85.0,A
1,Kenia,Arjona,16,90.0,B
2,Ana,Cartagena,15,78.0,A
3,Marisol,Arjona,22,88.0,B
4,Jamer,Arjona,18,92.0,A
5,Sofia,Lima,24,,


In [47]:
#Combinar DataFrames de forma vertical

df_combined = pd.concat([df2, df_new], ignore_index=True)
df_combined



Unnamed: 0,Nombre,Ciudad,Edad,Puntuacion,Categoria
0,Keila,Cartagena,23,85.0,A
1,Kenia,Arjona,16,90.0,B
2,Ana,Cartagena,15,78.0,A
3,Marisol,Arjona,22,88.0,B
4,Jamer,Arjona,18,92.0,A
5,Sofia,Lima,24,,
6,Laura,Cali,19,,
7,Miguel,Barranquilla,21,,
