In [4]:
import pandas as pd

#Dataframe
data = {
    "Nombre":["Jeisson", "Camilo", "Diego", "Miguel"],
    "Edad": [22, 25, 28, 23],
    "Ciudad": ["Medellin","Pereira","Bogota","Cali"]
}

In [6]:
#Generar un DataFrame a partir de un diccionario 

df = pd.DataFrame(data=data)
df

Unnamed: 0,Nombre,Edad,Ciudad
0,Jeisson,22,Medellin
1,Camilo,25,Pereira
2,Diego,28,Bogota
3,Miguel,23,Cali


In [8]:
#Seleccionar una columna
nombres = df["Nombre"]
print(nombres , type(nombres))

0    Jeisson
1     Camilo
2      Diego
3     Miguel
Name: Nombre, dtype: object <class 'pandas.core.series.Series'>


In [9]:
#Filtrar por indice 
datos = df[["Nombre","Ciudad"]]
print(datos)

    Nombre    Ciudad
0  Jeisson  Medellin
1   Camilo   Pereira
2    Diego    Bogota
3   Miguel      Cali


In [10]:
fila = df.loc[0]
print(fila)

Nombre     Jeisson
Edad            22
Ciudad    Medellin
Name: 0, dtype: object


In [11]:
#Filtrar por condicion 
edad = df[df["Edad"]>=25]
print(edad)

   Nombre  Edad   Ciudad
1  Camilo    25  Pereira
2   Diego    28   Bogota


In [12]:
#Filtro compuesto
filtro = (df["Edad"]<=25) & (df["Nombre"].str.startswith("J"))
df[filtro]

Unnamed: 0,Nombre,Edad,Ciudad
0,Jeisson,22,Medellin


In [13]:
#Filtrar por query
df.query("Edad <25")

Unnamed: 0,Nombre,Edad,Ciudad
0,Jeisson,22,Medellin
3,Miguel,23,Cali


In [16]:
df[df["Nombre"].isin(["Jeisson","Carlos","Diego"])]

Unnamed: 0,Nombre,Edad,Ciudad
0,Jeisson,22,Medellin
2,Diego,28,Bogota


In [18]:
def longitud_5(nombre):
    return len(nombre) == 5

df[df["Nombre"].apply(longitud_5)]

Unnamed: 0,Nombre,Edad,Ciudad
2,Diego,28,Bogota


In [19]:
#Filtrar por edades entre 25 y 35 años (inclusivo)
df[df["Edad"].between(25,35)]

Unnamed: 0,Nombre,Edad,Ciudad
1,Camilo,25,Pereira
2,Diego,28,Bogota


In [21]:
import numpy as np

In [22]:
data = {
    "Nombre":["Jeisson", "Camilo", "Diego", "Miguel"],
    "Edad": [22, 25, np.nan, 23],
    "Ciudad": ["Medellin","Pereira", None,"Cali"]
}

df = pd.DataFrame(data)
df

Unnamed: 0,Nombre,Edad,Ciudad
0,Jeisson,22.0,Medellin
1,Camilo,25.0,Pereira
2,Diego,,
3,Miguel,23.0,Cali


In [24]:
#Rellenar los valores faltantes
df_fill = df.fillna(
    {
        "Edad": df["Edad"].mean(),
        "Ciudad": "Desconocido"
    }
)
df_fill

Unnamed: 0,Nombre,Edad,Ciudad
0,Jeisson,22.0,Medellin
1,Camilo,25.0,Pereira
2,Diego,23.333333,Desconocido
3,Miguel,23.0,Cali


In [25]:
df_sin_nan = df.dropna()
df_sin_nan

Unnamed: 0,Nombre,Edad,Ciudad
0,Jeisson,22.0,Medellin
1,Camilo,25.0,Pereira
3,Miguel,23.0,Cali


In [26]:
#Remplazar valores esoecificos de alguna columna
df_reem = df.replace(
    {
        "Ciudad" : {None:"Desconocido"}
    }
)
df_reem

Unnamed: 0,Nombre,Edad,Ciudad
0,Jeisson,22.0,Medellin
1,Camilo,25.0,Pereira
2,Diego,,Desconocido
3,Miguel,23.0,Cali


In [27]:
#Interpolar valores

df_interpolado = df.copy()
df_interpolado["Edad"] = df["Edad"].interpolate()
df_interpolado

Unnamed: 0,Nombre,Edad,Ciudad
0,Jeisson,22.0,Medellin
1,Camilo,25.0,Pereira
2,Diego,24.0,
3,Miguel,23.0,Cali


In [29]:
data_duplicada = {
    'Nombre': ['Ana', 'Juan', 'Pedro', 'Maria', 'Luis', 'Ana','Juan'],
    'Edad': [22, 25, np.nan, 23, 23, 22, 25],
    'Ciudad': ['Barcelona', 'Madrid', 'Valencia', None, 'Bilbao', 'Barcelona', 'Madrid']
}
df_duplicado = pd.DataFrame(data_duplicada)
df_duplicado

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22.0,Barcelona
1,Juan,25.0,Madrid
2,Pedro,,Valencia
3,Maria,23.0,
4,Luis,23.0,Bilbao
5,Ana,22.0,Barcelona
6,Juan,25.0,Madrid


In [30]:
df_sin_duplicados = df_duplicado.drop_duplicates()
df_sin_duplicados

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22.0,Barcelona
1,Juan,25.0,Madrid
2,Pedro,,Valencia
3,Maria,23.0,
4,Luis,23.0,Bilbao


In [31]:
#Renombrar columnar
df_renombrado = df.rename(columns={"Nombre":"Name","Edad":"Age","Ciudad":"City"})
df_renombrado

Unnamed: 0,Name,Age,City
0,Jeisson,22.0,Medellin
1,Camilo,25.0,Pereira
2,Diego,,
3,Miguel,23.0,Cali


In [32]:
#Ordernar columnas
columnas_ordenadas = ["Ciudad", "Edad","Nombre"]
df_ordenado = df[columnas_ordenadas]
df_ordenado

Unnamed: 0,Ciudad,Edad,Nombre
0,Medellin,22.0,Jeisson
1,Pereira,25.0,Camilo
2,,,Diego
3,Cali,23.0,Miguel


In [33]:
#Transformación de datos
def  cuadrado(x):
    return x**2

df["Edad_Cuadrado"] = df["Edad"].apply(cuadrado)
df

Unnamed: 0,Nombre,Edad,Ciudad,Edad_Cuadrado
0,Jeisson,22.0,Medellin,484.0
1,Camilo,25.0,Pereira,625.0
2,Diego,,,
3,Miguel,23.0,Cali,529.0


In [34]:
#Agrupación de datos
data = {'Nombre': ['Juan','Ana','Luis','Laura','Pedro','Carla'],
        'Ciudad': ['Madrid','Barcelona','Madrid','Valencia','Barcelona','Madrid'],
        'Edad': [25, 33, 30, 28, 45, 38],
        'Puntuación': [80, 90, 85, 88, 75, 91]
}

df = pd.DataFrame (data)
df

Unnamed: 0,Nombre,Ciudad,Edad,Puntuación
0,Juan,Madrid,25,80
1,Ana,Barcelona,33,90
2,Luis,Madrid,30,85
3,Laura,Valencia,28,88
4,Pedro,Barcelona,45,75
5,Carla,Madrid,38,91


In [35]:
#Agrupar los datos por ciudad
grouped = df.groupby("Ciudad")
print(grouped.groups)

{'Barcelona': [1, 4], 'Madrid': [0, 2, 5], 'Valencia': [3]}
