In [1]:
import pandas as pd

In [2]:
# Series (estructura de datos unidimensional)
numeros = [3,4,5,6,7]

serie = pd.Series(numeros)

In [3]:
serie

0    3
1    4
2    5
3    6
4    7
dtype: int64

In [4]:
data = { 
  "Nombre" : ["Ana", "Juan", "Maria"],
  "Edad": [22,21,44],
  "Ciudad": ["Barcelona", "Madrid", "Valencia"]
}

df = pd.DataFrame(data)

df

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22,Barcelona
1,Juan,21,Madrid
2,Maria,44,Valencia


In [6]:
df.to_csv('../data/DataExported.csv')

In [8]:
df_exported = pd.read_csv("../data/DataExported.csv")
df_exported

Unnamed: 0.1,Unnamed: 0,Nombre,Edad,Ciudad
0,0,Ana,22,Barcelona
1,1,Juan,21,Madrid
2,2,Maria,44,Valencia


In [9]:
nombres = df["Nombre"]

nombres

0      Ana
1     Juan
2    Maria
Name: Nombre, dtype: object

In [11]:
columns = ["Nombre", "Edad"]
df[columns]

Unnamed: 0,Nombre,Edad
0,Ana,22
1,Juan,21
2,Maria,44


In [13]:
#Filtrar por indice
row = df.loc[2]
row

Nombre       Maria
Edad            44
Ciudad    Valencia
Name: 2, dtype: object

In [14]:
df[df["Edad"] > 22]

Unnamed: 0,Nombre,Edad,Ciudad
2,Maria,44,Valencia


In [16]:
filtro = (df["Edad"] >20) & (df["Nombre"].str.startswith("A"))
df[filtro]

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22,Barcelona


In [17]:
df.query("Edad < 23")

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22,Barcelona
1,Juan,21,Madrid


In [18]:
df[df["Nombre"].isin(["Ana", "Juan"])]

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22,Barcelona
1,Juan,21,Madrid


In [19]:
def longitud(nombre, longitud = 5):
  return len(nombre) == longitud

df[df["Nombre"].apply(longitud)]

Unnamed: 0,Nombre,Edad,Ciudad
2,Maria,44,Valencia


In [22]:
df[df["Edad"].between(21,22)]

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22,Barcelona
1,Juan,21,Madrid


In [23]:
import numpy as np

In [27]:
data = { 
  "Nombre" : ["Ana", "Juan", "Maria"],
  "Edad": [22, np.nan,44],
  "Ciudad": ["Barcelona", None, "Valencia"]
}
df = pd.DataFrame(data)
df

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22.0,Barcelona
1,Juan,,
2,Maria,44.0,Valencia


In [30]:
df_fill = df.fillna(
  {
    "Edad" : df["Edad"].mean(),
    "Ciudad" : "Desconocido"
  }
)

df_fill

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22.0,Barcelona
1,Juan,33.0,Desconocido
2,Maria,44.0,Valencia


In [31]:
df_sin_nan = df.dropna()
df_sin_nan

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22.0,Barcelona
2,Maria,44.0,Valencia


In [33]:
df_rem = df.replace(
  {
    "Ciudad": {None:"Desconocido"}
  }
)

df_rem

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22.0,Barcelona
1,Juan,,Desconocido
2,Maria,44.0,Valencia


In [34]:
df_interpolado = df.copy()
df_interpolado["Edad"] = df["Edad"].interpolate()
df_interpolado

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22.0,Barcelona
1,Juan,33.0,
2,Maria,44.0,Valencia


In [36]:
data_duplicada = { 
  "Nombre" : ["Ana", "Juan", "Maria", "Juan"],
  "Edad": [22, np.nan,44, np.nan],
  "Ciudad": ["Barcelona", None, "Valencia", None]
}

df_duplicado = pd.DataFrame(data_duplicada)
df_duplicado

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22.0,Barcelona
1,Juan,,
2,Maria,44.0,Valencia
3,Juan,,


In [37]:
df_sin_duplicados = df_duplicado.drop_duplicates()

df_sin_duplicados

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,22.0,Barcelona
1,Juan,,
2,Maria,44.0,Valencia


In [38]:
df_renombrado = df.rename(columns={"Nombre":"Name"})
df_renombrado

Unnamed: 0,Name,Edad,Ciudad
0,Ana,22.0,Barcelona
1,Juan,,
2,Maria,44.0,Valencia


In [39]:
columns = ["Ciudad", "Edad", "Nombre"]
df_ordenado = df[columns]
df_ordenado

Unnamed: 0,Ciudad,Edad,Nombre
0,Barcelona,22.0,Ana
1,,,Juan
2,Valencia,44.0,Maria


In [41]:
def cuadrado(x):
  return x*x

df["Edad_Cuadrado"] = df["Edad"].apply(cuadrado)
df

Unnamed: 0,Nombre,Edad,Ciudad,Edad_Cuadrado
0,Ana,22.0,Barcelona,484.0
1,Juan,,,
2,Maria,44.0,Valencia,1936.0


In [42]:
grouped = df.groupby("Ciudad")

grouped.groups

{'Barcelona': [0], 'Valencia': [2]}

In [43]:
aggregated = grouped.agg(
  {
    "Edad":"mean"
  }
)

aggregated

Unnamed: 0_level_0,Edad
Ciudad,Unnamed: 1_level_1
Barcelona,22.0
Valencia,44.0


In [44]:
def rango(series):
  return series.max() - series.min()

aggregated_custom = grouped.agg(
  {
    "Edad":rango
  }
)

aggregated_custom

Unnamed: 0_level_0,Edad
Ciudad,Unnamed: 1_level_1
Barcelona,0.0
Valencia,0.0


In [45]:
data["Puntuacion"] = [80, 90, 85]

In [46]:
data

{'Nombre': ['Ana', 'Juan', 'Maria'],
 'Edad': [22, nan, 44],
 'Ciudad': ['Barcelona', None, 'Valencia'],
 'Puntuacion': [80, 90, 85]}

In [51]:
data["Categoria"] = ["A", "B", "A"]
df = pd.DataFrame(data)
df = df.replace(
  {
    "Ciudad": {None:"Desconocido"}
  }
)
data

{'Nombre': ['Ana', 'Juan', 'Maria'],
 'Edad': [22, nan, 44],
 'Ciudad': ['Barcelona', None, 'Valencia'],
 'Puntuacion': [80, 90, 85],
 'Categoria': ['A', 'B', 'A']}

In [53]:
grouped_multi = df.groupby(["Ciudad", "Categoria"])
grouped_multi.groups

{('Barcelona', 'A'): [0], ('Desconocido', 'B'): [1], ('Valencia', 'A'): [2]}

In [54]:
aggregated_data_multi = grouped_multi.agg({
  "Edad":"sum",
  "Puntuacion":"mean"
})

aggregated_data_multi

Unnamed: 0_level_0,Unnamed: 1_level_0,Edad,Puntuacion
Ciudad,Categoria,Unnamed: 2_level_1,Unnamed: 3_level_1
Barcelona,A,22.0,80.0
Desconocido,B,0.0,90.0
Valencia,A,44.0,85.0


In [63]:
data = {
  "Nombre": ["Juan", "Ana", "Luis", "Laura"],
  "Edad": [25, 33, 30, 28]
}

df = pd.DataFrame(data)

In [64]:
df["Ciudad"] = ["Barcelona", "Madrid", "Madrid", "Valencia"]
df

Unnamed: 0,Nombre,Edad,Ciudad
0,Juan,25,Barcelona
1,Ana,33,Madrid
2,Luis,30,Madrid
3,Laura,28,Valencia


In [65]:
row = pd.Series({
  "Nombre":"Pedro",
  "Edad":50,
  "Ciudad":"Valladolid"
})

df = pd.concat([df, row.to_frame().T], ignore_index=True)
df

Unnamed: 0,Nombre,Edad,Ciudad
0,Juan,25,Barcelona
1,Ana,33,Madrid
2,Luis,30,Madrid
3,Laura,28,Valencia
4,Pedro,50,Valladolid


In [66]:
df_second = df.copy()

In [67]:
df_first = pd.DataFrame({
  "Nombre":["Jose", "Lucas"],
  "Edad":[22,33],
  "Ciudad":["Madrid", "Zaragoza"]
})

In [68]:
df_merge = pd.concat([df_first, df_second], ignore_index=True)
df_merge

Unnamed: 0,Nombre,Edad,Ciudad
0,Jose,22,Madrid
1,Lucas,33,Zaragoza
2,Juan,25,Barcelona
3,Ana,33,Madrid
4,Luis,30,Madrid
5,Laura,28,Valencia
6,Pedro,50,Valladolid


In [70]:
arr1 = np.array([1,2,3,4,5])
print(arr1)
print(arr1.shape)
print(arr1.dtype)

[1 2 3 4 5]
(5,)
int64
