In [5]:
import pandas as pd


In [6]:
# series en panda
numeros = [3,4,5,6,7]
serie = pd.Series(numeros)
serie, type(serie)

(0    3
 1    4
 2    5
 3    6
 4    7
 dtype: int64,
 pandas.core.series.Series)

In [7]:
data = {
     "Nombre":['Ana', 'Juan', 'Pedro'],
     "Edad":[22,25,26],
     "Ciudad":['Medellín','Bogotá', 'Cali'],
}
data, type(data)

({'Nombre': ['Ana', 'Juan', 'Pedro'],
  'Edad': [22, 25, 26],
  'Ciudad': ['Medellín', 'Bogotá', 'Cali']},
 dict)

In [8]:
# Generar un dataFrame apartir de un Diccionario
df = pd.DataFrame(data=data)
df

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22,Medellín
1,Juan,25,Bogotá
2,Pedro,26,Cali


In [9]:
# esportar DATAFRAME
df.to_csv("data.csv")

In [10]:
#Importar dataFrame
import_df = pd.read_csv("data.csv", index_col=0)
import_df

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22,Medellín
1,Juan,25,Bogotá
2,Pedro,26,Cali


In [11]:
#Manipulacion de datos con PANDAS

# Selecionar columna
nombres = df["Nombre"]
print(nombres)

0      Ana
1     Juan
2    Pedro
Name: Nombre, dtype: object


In [12]:
#Selecionar una o más columnas

df[["Nombre","Edad"]]


Unnamed: 0,Nombre,Edad
0,Ana,22
1,Juan,25
2,Pedro,26


In [13]:
# filtrar por indice

fila = df.loc[2]
fila

Nombre    Pedro
Edad         26
Ciudad     Cali
Name: 2, dtype: object

In [14]:
# filtrar por condiciones
df[df["Edad"]> 23]

Unnamed: 0,Nombre,Edad,Ciudad
1,Juan,25,Bogotá
2,Pedro,26,Cali


In [15]:
filtro = (df["Edad"]>20) & (df["Nombre"].str.startswith("A")) 
# mostrar por edad mayor a 20 quienes tengan un nombre que inicie por la A
df[filtro]

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22,Medellín


In [16]:
#Filtrado por registro
df[df["Nombre"].isin(["Ana", "Juan", "Gio"])] # solo muestra los datos de los que exiten

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22,Medellín
1,Juan,25,Bogotá


In [17]:
#con funciones
# mostrar la informacion, de quien tenga un nombre con una longitud de 5 caracteres
def longitud_5(nombre):
    return len(nombre) == 5

df[df["Nombre"].apply(longitud_5)]

Unnamed: 0,Nombre,Edad,Ciudad
2,Pedro,26,Cali


In [18]:
# filtrar por edades entre 20 y 25 años




df[df["Edad"].between(20,25)]

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22,Medellín
1,Juan,25,Bogotá


In [19]:
#tratamiento de datos ===> numpy
import numpy as np

data = {
    "Nombre":['Ana', 'Juan', 'Pedro'],
    "Edad":[22,np.nan,26],
    "Ciudad":['Medellín','Bogotá', None],
}
df = pd.DataFrame(data)
df

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22.0,Medellín
1,Juan,,Bogotá
2,Pedro,26.0,


In [20]:
#Rellenar/Reemplazar los valores faltantes => vacios/nulos
df_fill = df.fillna(
    {
        "Edad" : df["Edad"].mean(),
        "Ciudad" : "Desconocido"
    }
)
df
df_fill

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22.0,Medellín
1,Juan,24.0,Bogotá
2,Pedro,26.0,Desconocido


In [21]:
# Eliminar/Descarta las filas con valores nulos/vacios
df_sin_nan = df.dropna()
df_sin_nan

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22.0,Medellín


In [22]:
#reemplazar valores esNaNpecificos de alguna columna
df_replace = df.replace(
    {
        "Ciudad" : {None:"Desconocido"},
        #"Edad" : {nan:0},
        "Nombre" : {None:"Default"},
    }
)
df_replace

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22.0,Medellín
1,Juan,,Bogotá
2,Pedro,26.0,Desconocido


In [23]:
#Interpolado => parecido pero opcion diferente a promedio (mean)

df_interpolado = df.copy()
df_interpolado["Edad"] = df["Edad"].interpolate()
df_interpolado

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22.0,Medellín
1,Juan,24.0,Bogotá
2,Pedro,26.0,


In [24]:
data_duplicada = {
     "Nombre":['Ana', 'Juan', 'Pedro','Gio','Ana','Jose'],
     "Edad":[22,25,26,22,22,20],
     "Ciudad":['Medellín','Bogotá', 'Cali','Medellín','Medellín','Cartagena'],
}

df_duplicada = pd.DataFrame(data_duplicada)
df_duplicada

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22,Medellín
1,Juan,25,Bogotá
2,Pedro,26,Cali
3,Gio,22,Medellín
4,Ana,22,Medellín
5,Jose,20,Cartagena


In [25]:
# eliminar las filas/registros que tengan valores iguales/duplicados

df_sin_dp = df_duplicada.drop_duplicates()
df_sin_dp

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22,Medellín
1,Juan,25,Bogotá
2,Pedro,26,Cali
3,Gio,22,Medellín
5,Jose,20,Cartagena


In [26]:
#renombrar
df_rename = df.rename(columns={"Nombre":"Name","Edad":"Age","Ciudad":"City"})
df_rename


Unnamed: 0,Name,Age,City
0,Ana,22.0,Medellín
1,Juan,,Bogotá
2,Pedro,26.0,


In [27]:
#Ordenar columnas / Columnas Ordenada
colum_order = ["Ciudad", "Edad", "Nombre"]
df_ordenado = df[colum_order]
df_ordenado

Unnamed: 0,Ciudad,Edad,Nombre
0,Medellín,22.0,Ana
1,Bogotá,,Juan
2,,26.0,Pedro


In [28]:
#Transformacion de datos

def cuadrado(x):
    return x**2

df["Edad_Cuadrado"] = df["Edad"].apply(cuadrado)
df

Unnamed: 0,Nombre,Edad,Ciudad,Edad_Cuadrado
0,Ana,22.0,Medellín,484.0
1,Juan,,Bogotá,
2,Pedro,26.0,,676.0


In [29]:
#agrupacion de datos
data2 = {
    "Nombre": ['Juan', 'Ana', 'Luis', 'Laura', 'Pedro', 'Carla'],
    "Ciudad": ['Madrid', 'Barcelona', 'Madrid', 'Valencia', 'Barcelona', 'Madrid'],
    "Edad":   [25,33,20,28,45,38],
    "Puntuacion": [80,90,85,88,75,91],
}

df = pd.DataFrame(data2)
df


Unnamed: 0,Nombre,Ciudad,Edad,Puntuacion
0,Juan,Madrid,25,80
1,Ana,Barcelona,33,90
2,Luis,Madrid,20,85
3,Laura,Valencia,28,88
4,Pedro,Barcelona,45,75
5,Carla,Madrid,38,91


In [30]:
grouped = df.groupby("Ciudad")
print(grouped.groups) 
#separa los registros por la ciudad

{'Barcelona': [1, 4], 'Madrid': [0, 2, 5], 'Valencia': [3]}


In [31]:
#definir una funciona de agregación personalizada
def rango(series):
    return series.max() - series.min()

#aplicar la funcion agg por el grupo
agregated_data_custom = grouped.agg(
    {
        "Edad" : rango,
        "Puntuacion" : rango
    }
)
agregated_data_custom

Unnamed: 0_level_0,Edad,Puntuacion
Ciudad,Unnamed: 1_level_1,Unnamed: 2_level_1
Barcelona,12,15
Madrid,18,11
Valencia,0,0


In [32]:
data2["Categoria"] = ["A","B", "A","B","A","B"]
df = pd.DataFrame(data2)
df

Unnamed: 0,Nombre,Ciudad,Edad,Puntuacion,Categoria
0,Juan,Madrid,25,80,A
1,Ana,Barcelona,33,90,B
2,Luis,Madrid,20,85,A
3,Laura,Valencia,28,88,B
4,Pedro,Barcelona,45,75,A
5,Carla,Madrid,38,91,B


In [33]:
#agrupar datos por ciudad y categoria

grouped_multi = df.groupby(["Ciudad", "Categoria"])
grouped_multi.groups

{('Barcelona', 'A'): [4], ('Barcelona', 'B'): [1], ('Madrid', 'A'): [0, 2], ('Madrid', 'B'): [5], ('Valencia', 'B'): [3]}

In [44]:
# calcular la suma de las edades y puntuacion por ciudad y categoria
agregated_data_multi = grouped_multi.agg({
    "Edad":"sum",
    "Puntuacion":"mean"
})
agregated_data_multi

Unnamed: 0_level_0,Unnamed: 1_level_0,Edad,Puntuacion
Ciudad,Categoria,Unnamed: 2_level_1,Unnamed: 3_level_1
Barcelona,A,45,75.0
Barcelona,B,33,90.0
Madrid,A,45,82.5
Madrid,B,38,91.0
Valencia,B,28,88.0


In [45]:
#data nuevo 3
data3 = {
    "Nombre": ['Juan', 'Ana', 'Luis', 'Laura'],
    "Edad": [25,33,30,28]
}
df = pd.DataFrame(data3)
df

Unnamed: 0,Nombre,Edad
0,Juan,25
1,Ana,33
2,Luis,30
3,Laura,28


In [46]:
df["Ciudad"] = ["Madrid", "Barcelona", "Madrid", "Valencia"]
df

Unnamed: 0,Nombre,Edad,Ciudad
0,Juan,25,Madrid
1,Ana,33,Barcelona
2,Luis,30,Madrid
3,Laura,28,Valencia


In [50]:
#agregar una nueva fila al DF

new_row = pd.Series({
    "Nombre":"Pedro", "Edad":45, "Ciudad":"Barcelona"
})
df = pd.concat([df,new_row.to_frame().T], ignore_index=True)
df

Unnamed: 0,Nombre,Edad,Ciudad
0,Juan,25,Madrid
1,Ana,33,Barcelona
2,Luis,30,Madrid
3,Laura,28,Valencia
4,Pedro,45,Barcelona
5,Pedro,45,Barcelona


In [55]:
# crear dos dataFrames para unirlos
dataF1 = {
    "Nombre": ['Juan', 'Ana', 'Luis', 'Laura'],
    "Edad": [25,33,30,28],
    "Ciudad" : ["Madrid", "Barcelona", "Madrid", "Valencia"]
}
df1 = pd.DataFrame(dataF1)
dataF2 = {
    "Nombre": ['Gio', 'Jose', 'Andrea', 'Lorena'],
    "Edad": [22,31,26,21],
    "Ciudad" :["Madrid", "Barcelona", "Madrid", "Valencia"]
}
df2 = pd.DataFrame(dataF2)
df1,df2

(  Nombre  Edad     Ciudad
 0   Juan    25     Madrid
 1    Ana    33  Barcelona
 2   Luis    30     Madrid
 3  Laura    28   Valencia,
    Nombre  Edad     Ciudad
 0     Gio    22     Madrid
 1    Jose    31  Barcelona
 2  Andrea    26     Madrid
 3  Lorena    21   Valencia)

In [56]:
# combinar/unir los datarame

df_combined = pd.concat([df1,df2], ignore_index=True)
df_combined


Unnamed: 0,Nombre,Edad,Ciudad
0,Juan,25,Madrid
1,Ana,33,Barcelona
2,Luis,30,Madrid
3,Laura,28,Valencia
4,Gio,22,Madrid
5,Jose,31,Barcelona
6,Andrea,26,Madrid
7,Lorena,21,Valencia
