pandas

In [1]:
import pandas as pd

In [6]:
#series de pandas
# estructura de datos unidimensional que puede contener cualquier tipo de datos
numeros = [3, 4, 5, 6, 7]

serie = pd.Series(numeros)
serie, type(serie)

(0    3
 1    4
 2    5
 3    6
 4    7
 dtype: int64,
 pandas.core.series.Series)

In [7]:
#dataframe es una estructura de datos bidimensional
#como si fuera una matriz
data = {
    "Nombre":["Ana", "Juan", "Pedro", "Maria", "Luis"],
    "Edad":[22, 25, 28, 23, 20],
    "Ciudad":["Barcelona", "Madrid", "Valencia","Sevilla", "Lisboa"]
}

data, type(data)

({'Nombre': ['Ana', 'Juan', 'Pedro', 'Maria', 'Luis'],
  'Edad': [22, 25, 28, 23, 20],
  'Ciudad': ['Barcelona', 'Madrid', 'Valencia', 'Sevilla', 'Lisboa']},
 dict)

In [8]:
#Generamos un dataframe a partir del diccionario
df = pd.DataFrame(data=data)
df

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22,Barcelona
1,Juan,25,Madrid
2,Pedro,28,Valencia
3,Maria,23,Sevilla
4,Luis,20,Lisboa


In [9]:
#exportar dataframe
df.to_csv("data.csv")

In [10]:
#importamos 
import_df = pd.read_csv("data.csv", index_col=0)
import_df

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22,Barcelona
1,Juan,25,Madrid
2,Pedro,28,Valencia
3,Maria,23,Sevilla
4,Luis,20,Lisboa


In [12]:
#seleccionamos una columna
nombre = df["Nombre"]
print(nombre, type(nombre))

0      Ana
1     Juan
2    Pedro
3    Maria
4     Luis
Name: Nombre, dtype: object <class 'pandas.core.series.Series'>


In [14]:
#seleccionamos una o mas columans
df[["Nombre", "Edad"]]

Unnamed: 0,Nombre,Edad
0,Ana,22
1,Juan,25
2,Pedro,28
3,Maria,23
4,Luis,20


In [16]:
#Filtrar por indice
fila = df.loc[2]
fila

Nombre       Pedro
Edad            28
Ciudad    Valencia
Name: 2, dtype: object

In [17]:
#Filtramos por condicion
df[df["Edad"] > 23]

Unnamed: 0,Nombre,Edad,Ciudad
1,Juan,25,Madrid
2,Pedro,28,Valencia


In [22]:
#Otra manera de filtrar
filtro = (df["Edad"] > 23) & (df["Nombre"].str.startswith("P"))
df[filtro]

Unnamed: 0,Nombre,Edad,Ciudad
2,Pedro,28,Valencia


In [24]:
#Filtrar por query
#forma parecida a sql
df.query("Edad < 23")

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22,Barcelona
4,Luis,20,Lisboa


In [26]:
#si queremos traer algunos nombres nada mas de nuestra bd, hacemos lo siguiente
df[df["Nombre"].isin(["Ana","Carlos","Luis"])]

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22,Barcelona
4,Luis,20,Lisboa


In [27]:
#otra forma de aplicar filtro
def longitud_5 (nombre):
    return len(nombre) == 5

df[df["Nombre"].apply(longitud_5)]

Unnamed: 0,Nombre,Edad,Ciudad
2,Pedro,28,Valencia
3,Maria,23,Sevilla


In [28]:
#Filtrar por edad entre 25 y 35 años (inclusive)
df[df["Edad"].between(25,35)]


Unnamed: 0,Nombre,Edad,Ciudad
1,Juan,25,Madrid
2,Pedro,28,Valencia


In [2]:
import numpy as np

In [30]:
data = {
    "Nombre":["Ana", "Juan", "Pedro", "Maria", "Luis"],
    "Edad":[22, 25, np.nan, 23, 20],
    "Ciudad":["Barcelona", "Madrid", "Valencia",None, "Lisboa"]
}

df = pd.DataFrame(data)
df


Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22.0,Barcelona
1,Juan,25.0,Madrid
2,Pedro,,Valencia
3,Maria,23.0,
4,Luis,20.0,Lisboa


In [31]:
#rellenar los valores faltantes
df_fill = df.fillna(
    {
        "Edad": df["Edad"].mean(),
        "Ciudad": "Desconocido"
    }
)
df_fill

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22.0,Barcelona
1,Juan,25.0,Madrid
2,Pedro,22.5,Valencia
3,Maria,23.0,Desconocido
4,Luis,20.0,Lisboa


In [32]:
#Eliminamos filas
df_sin_nan = df.dropna()
df_sin_nan

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22.0,Barcelona
1,Juan,25.0,Madrid
4,Luis,20.0,Lisboa


In [33]:
#reemplaazdar valores especificos de alguna col
df_reem = df.replace(
    {
        "Ciudad":{None:"Desconocido"}
    }
)
df_reem

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22.0,Barcelona
1,Juan,25.0,Madrid
2,Pedro,,Valencia
3,Maria,23.0,Desconocido
4,Luis,20.0,Lisboa


In [34]:
#Interpolar valores 
df_interpolado = df.copy()
df_interpolado["Edad"] = df["Edad"].interpolate()
df_interpolado

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22.0,Barcelona
1,Juan,25.0,Madrid
2,Pedro,24.0,Valencia
3,Maria,23.0,
4,Luis,20.0,Lisboa


In [35]:
data_duplicada = {
    "Nombre" : ["Ana", "Juan", "Pedro", "Maria","Luis", "Ana", "Juan"],
    "Edad":[22, 25, np.nan, 23, 20, 22, 25],
    "Ciudad":["Barcelona", "Madrid", "Valencia", None, "Bilbao", "Barcelona", "Madrid"]
}
df_duplicado = pd.DataFrame(data_duplicada)
df_duplicado

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22.0,Barcelona
1,Juan,25.0,Madrid
2,Pedro,,Valencia
3,Maria,23.0,
4,Luis,20.0,Bilbao
5,Ana,22.0,Barcelona
6,Juan,25.0,Madrid


In [36]:
df_sin_duplicados = df_duplicado.drop_duplicates()
df_sin_duplicados

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22.0,Barcelona
1,Juan,25.0,Madrid
2,Pedro,,Valencia
3,Maria,23.0,
4,Luis,20.0,Bilbao


In [37]:
#renombrar columnas
df_renombrado = df.rename(columns={"Nombre":"Name","Edad":"Age", "Ciudad":"City"})
df_renombrado


Unnamed: 0,Name,Age,City
0,Ana,22.0,Barcelona
1,Juan,25.0,Madrid
2,Pedro,,Valencia
3,Maria,23.0,
4,Luis,20.0,Lisboa


In [38]:
#ordenar columnas
columnas_ordenadas = ["Ciudad", "Edad", "Nombre"]
df_ordenado = df[columnas_ordenadas]
df_ordenado

Unnamed: 0,Ciudad,Edad,Nombre
0,Barcelona,22.0,Ana
1,Madrid,25.0,Juan
2,Valencia,,Pedro
3,,23.0,Maria
4,Lisboa,20.0,Luis


In [39]:
#Transformacion de datos
def cuadrado(x):
    return x**2

df["Edad_cuadrado"] = df["Edad"].apply(cuadrado)
df

Unnamed: 0,Nombre,Edad,Ciudad,Edad_cuadrado
0,Ana,22.0,Barcelona,484.0
1,Juan,25.0,Madrid,625.0
2,Pedro,,Valencia,
3,Maria,23.0,,529.0
4,Luis,20.0,Lisboa,400.0


In [16]:
data = {
    "Nombre" : ["Ana", "Juan", "Pedro", "Maria","Luis", "Carla"],
    "Ciudad":["Madrid", "Barcelona", "Madrid", "Valencia", "Barcelona", "Madrid"],
    "Edad":[25, 33, 30, 28, 45, 38],
    "Puntuacion" : [80, 90, 85, 88, 75, 91]
}

In [17]:
df = pd.DataFrame(data)
df

Unnamed: 0,Nombre,Ciudad,Edad,Puntuacion
0,Ana,Madrid,25,80
1,Juan,Barcelona,33,90
2,Pedro,Madrid,30,85
3,Maria,Valencia,28,88
4,Luis,Barcelona,45,75
5,Carla,Madrid,38,91


In [18]:
#Agruoar los datos por cuidad
grouped = df.groupby("Ciudad")
print(grouped.groups)
#oandas te devuelve una lsita con el indice a los que pertence cada grupo y cada persona

{'Barcelona': [1, 4], 'Madrid': [0, 2, 5], 'Valencia': [3]}


In [19]:
#calcular la suma de las edades y puntuaciones por ciudad
agregated_data = grouped.agg(
    {
        "Edad":"mean",
        "Puntuacion":"sum" 
    }
)
agregated_data

Unnamed: 0_level_0,Edad,Puntuacion
Ciudad,Unnamed: 1_level_1,Unnamed: 2_level_1
Barcelona,39.0,165
Madrid,31.0,256
Valencia,28.0,88


In [20]:
#Definir una funcion de agregacion personaliazda
def rango(series):
    return series.max() - series.min()

#aplicar la fucion agg para el grupo
aggregated_data_custom = grouped.agg(
    {
        "Edad":rango,
        "Puntuacion":rango
    }
)
print(aggregated_data_custom)

           Edad  Puntuacion
Ciudad                     
Barcelona    12          15
Madrid       13          11
Valencia      0           0


In [21]:
#Agraegamos una nueva columna al df data
data["Categoria"] = ["A", "B", "A", "B", "A", "B"]

df = pd.DataFrame(data)

df

Unnamed: 0,Nombre,Ciudad,Edad,Puntuacion,Categoria
0,Ana,Madrid,25,80,A
1,Juan,Barcelona,33,90,B
2,Pedro,Madrid,30,85,A
3,Maria,Valencia,28,88,B
4,Luis,Barcelona,45,75,A
5,Carla,Madrid,38,91,B


In [22]:
#agrupar datos por ciudad y catregoria
grouped_multi = df.groupby(["Ciudad", "Categoria"])
grouped_multi.groups

{('Barcelona', 'A'): [4], ('Barcelona', 'B'): [1], ('Madrid', 'A'): [0, 2], ('Madrid', 'B'): [5], ('Valencia', 'B'): [3]}

In [23]:
#Calcular la suma de las edades y puntuacion por ciudad y por categoria
aggregated_data_multi = grouped_multi.agg(
    {
        "Edad":"sum",
        "Puntuacion": "mean"
    }
)
aggregated_data_multi

Unnamed: 0_level_0,Unnamed: 1_level_0,Edad,Puntuacion
Ciudad,Categoria,Unnamed: 2_level_1,Unnamed: 3_level_1
Barcelona,A,45,75.0
Barcelona,B,33,90.0
Madrid,A,55,82.5
Madrid,B,38,91.0
Valencia,B,28,88.0


In [24]:
#Agregar una columna
##Crear una dataframe de ej
data = {"Nombre":["Juan", "Ana", "Luis", "Laura"],
        "Edad" : [25, 33, 30, 28]}
df = pd.DataFrame(data)
df

Unnamed: 0,Nombre,Edad
0,Juan,25
1,Ana,33
2,Luis,30
3,Laura,28


In [25]:
#Agregar una columna
df["Ciudad"] = ["Madrid", "Barcelona", "Madrid", "Valencia"]
df

Unnamed: 0,Nombre,Edad,Ciudad
0,Juan,25,Madrid
1,Ana,33,Barcelona
2,Luis,30,Madrid
3,Laura,28,Valencia
