In [31]:
import pandas as pd

In [4]:
data = {
    "Nombre": ["Ana", "Juan", "Pedro", "Maria", "Luis"],
    "Edad": [22, 25, 28, 23, 20],
    "Ciudad": ["Barcelona", "Madrid", "Valencia", "Sevilla", "Bilboa"]
}

data, type(data)

({'Nombre': ['Ana', 'Juan', 'Pedro', 'Maria', 'Luis'],
  'Edad': [22, 25, 28, 23, 20],
  'Ciudad': ['Barcelona', 'Madrid', 'Valencia', 'Sevilla', 'Bilboa']},
 dict)

In [6]:
#Generar un datagrame a partir de un diccionario

df = pd.DataFrame(data=data)
df

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22,Barcelona
1,Juan,25,Madrid
2,Pedro,28,Valencia
3,Maria,23,Sevilla
4,Luis,20,Bilboa


In [7]:
# exportar DataFrame

df.to_csv("data.csv")

In [10]:
# importar un IDataFrame
import_df = pd.read_csv("data.csv", index_col=0)
import_df

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22,Barcelona
1,Juan,25,Madrid
2,Pedro,28,Valencia
3,Maria,23,Sevilla
4,Luis,20,Bilboa


In [11]:
# Seleccionar una columna
nombres = df["Nombre"]
print(nombres, type(nombres))

0      Ana
1     Juan
2    Pedro
3    Maria
4     Luis
Name: Nombre, dtype: object <class 'pandas.core.series.Series'>


In [12]:
#Seleccionar una o mas columnas
df[["Nombre", "Edad"]]

Unnamed: 0,Nombre,Edad
0,Ana,22
1,Juan,25
2,Pedro,28
3,Maria,23
4,Luis,20


In [14]:
#Filtrar por indice
fila = df.loc[2]
fila

Nombre       Pedro
Edad            28
Ciudad    Valencia
Name: 2, dtype: object

In [15]:
#Filtrar por condicion
df[df["Edad"] > 23]

Unnamed: 0,Nombre,Edad,Ciudad
1,Juan,25,Madrid
2,Pedro,28,Valencia


In [16]:
filtro = (df["Edad"] > 23) & (df["Nombre"].str.startswith("A"))
df[filtro]

Unnamed: 0,Nombre,Edad,Ciudad


In [17]:
filtro = (df["Edad"] > 23) & (df["Nombre"].str.startswith("P"))
df[filtro]

Unnamed: 0,Nombre,Edad,Ciudad
2,Pedro,28,Valencia


In [18]:
# Filtrar por query
df.query("Edad < 23")

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22,Barcelona
4,Luis,20,Bilboa


In [19]:
df[df["Nombre"].isin(["Ana", "Carlos", "Luis"])]

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22,Barcelona
4,Luis,20,Bilboa


In [22]:
def longitud_5(nombres):
    return len(nombres) == 5

df[df["Nombre"].apply(longitud_5)]

Unnamed: 0,Nombre,Edad,Ciudad
2,Pedro,28,Valencia
3,Maria,23,Sevilla


In [23]:
#Filtrar por edades entre 25 y 35 (inclusivo)
df[df["Edad"].between(25,35)]

Unnamed: 0,Nombre,Edad,Ciudad
1,Juan,25,Madrid
2,Pedro,28,Valencia


In [24]:
import numpy as np

In [37]:
data2 = {
    "Nombre":["Ana", "Juan","Pedro", "Maria", "Luis"],
    "Edad":[22,25,np.nan,23,20],
    "Ciudad": ["Barcelona", "Madrid", "Valencia", None ,"Bilboa"]
}

fd = pd.DataFrame(data2)
fd


Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22.0,Barcelona
1,Juan,25.0,Madrid
2,Pedro,,Valencia
3,Maria,23.0,
4,Luis,20.0,Bilboa


In [39]:
# Rellenar los valores faltantes
fd_fill = fd.fillna(
    {
        "Edad": df["Edad"].mean(),
        "Ciudad": "Desconocido"
    }
)
fd_fill

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22.0,Barcelona
1,Juan,25.0,Madrid
2,Pedro,23.6,Valencia
3,Maria,23.0,Desconocido
4,Luis,20.0,Bilboa


In [40]:
fd_sin_nan = df.dropna()
fd_sin_nan

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22,Barcelona
1,Juan,25,Madrid
2,Pedro,28,Valencia
3,Maria,23,Sevilla
4,Luis,20,Bilboa


In [43]:
# Remplazar valores especificos de alguna columna
fd_reem = fd.replace(
    {
        "Ciudad": {None: "Desconocido"}
    }
)
fd_reem

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22.0,Barcelona
1,Juan,25.0,Madrid
2,Pedro,,Valencia
3,Maria,23.0,Desconocido
4,Luis,20.0,Bilboa


In [44]:
# Interpolar valores
fd_interpolado = fd.copy()
fd_interpolado["Edad"] = fd["Edad"].interpolate()
fd_interpolado

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22.0,Barcelona
1,Juan,25.0,Madrid
2,Pedro,24.0,Valencia
3,Maria,23.0,
4,Luis,20.0,Bilboa


In [47]:
data_duplicada = {
    'None': ["Ana", "Juan", "Pedro", "Maria", "Luis", "Ana", "Juan"],
    'Edad': [22, 25, np.nan, 23, 20, 22, 35],
    'Ciudad': ['Barcelona', 'Madrid', 'Valencia', None, 'Bilboa', 'Barcelona', 'Madrid']
}
df_duplicado = pd.DataFrame(data_duplicada)
df_duplicado

Unnamed: 0,None,Edad,Ciudad
0,Ana,22.0,Barcelona
1,Juan,25.0,Madrid
2,Pedro,,Valencia
3,Maria,23.0,
4,Luis,20.0,Bilboa
5,Ana,22.0,Barcelona
6,Juan,35.0,Madrid


In [49]:
df_sin_duplicados = df_duplicado.drop_duplicates()
df_sin_duplicados

Unnamed: 0,None,Edad,Ciudad
0,Ana,22.0,Barcelona
1,Juan,25.0,Madrid
2,Pedro,,Valencia
3,Maria,23.0,
4,Luis,20.0,Bilboa
6,Juan,35.0,Madrid


In [50]:
df_renombrado = df.rename(columns={"Nombre": "Name", "Edad": "Age", "Ciudad": "City"})
df_renombrado

Unnamed: 0,Name,Age,City
0,Ana,22,Barcelona
1,Juan,25,Madrid
2,Pedro,28,Valencia
3,Maria,23,Sevilla
4,Luis,20,Bilboa


In [51]:
# ordenar columnas
columnas_ordenadas = ["Ciudad", "Edad", "Nombre"]
df_ordenado = df[columnas_ordenadas]
df_ordenado

Unnamed: 0,Ciudad,Edad,Nombre
0,Barcelona,22,Ana
1,Madrid,25,Juan
2,Valencia,28,Pedro
3,Sevilla,23,Maria
4,Bilboa,20,Luis


In [52]:
# Transformacion de datos
def cuadrado(x):
    return x**2

df["Edad_Cuadrado"] = df["Edad"].apply(cuadrado)
df

Unnamed: 0,Nombre,Edad,Ciudad,Edad_Cuadrado
0,Ana,22,Barcelona,484
1,Juan,25,Madrid,625
2,Pedro,28,Valencia,784
3,Maria,23,Sevilla,529
4,Luis,20,Bilboa,400


Agrupar datos es juntar filas que tienen algo en común (como misma fecha, categoria o nombre) para calcular algo, como un promedio o total
Ejemplo:
Si tienes ventas por día y querés saber cuánto se vendió por mes, agrupás por mes y sumás
df.grouby('mes')['ventas'].sum()
Eso es agupación: juntar + calcular.

In [54]:
data = {
    'Nombre': ['Juan', 'Ana', 'Luis', 'Laura', 'Pedro', 'Carla'],
    'Ciudad': ['Madrid', 'Barcelona', 'Madrid', 'Valencia', 'Barcelona', 'Madrid'],
    'Edad': [25,23,30,38,45,48],
    'Puntuacion': [80, 90, 58, 88, 75, 91]
}

xd = pd.DataFrame(data)
xd

Unnamed: 0,Nombre,Ciudad,Edad,Puntuacion
0,Juan,Madrid,25,80
1,Ana,Barcelona,23,90
2,Luis,Madrid,30,58
3,Laura,Valencia,38,88
4,Pedro,Barcelona,45,75
5,Carla,Madrid,48,91


In [56]:
#Agrupar los datos por ciudad
grouped = xd.groupby("Ciudad")
print(grouped.groups)


{'Barcelona': [1, 4], 'Madrid': [0, 2, 5], 'Valencia': [3]}


In [57]:
# Calcular la suma de las edades y puntuaciones por edad
aggregated_data = grouped.agg(
    {
        "Edad": "mean",
        "Puntuacion": "sum"
    }
)
aggregated_data


Unnamed: 0_level_0,Edad,Puntuacion
Ciudad,Unnamed: 1_level_1,Unnamed: 2_level_1
Barcelona,34.0,165
Madrid,34.333333,229
Valencia,38.0,88


In [59]:
#Definir una funcion de agregacion personalizada
def rango(series):
    return series.max() - series.min()

#Aplicar la funcion agg per al grupo
aggregated_data_custom = grouped.agg(
    {
        "Edad": rango,
        "Puntuacion": rango
    }
)

print(aggregated_data_custom)

           Edad  Puntuacion
Ciudad                     
Barcelona    22          15
Madrid       23          33
Valencia      0           0


Debo continuar en el video 9