In [1]:
import pandas as pd

In [2]:
# Series de datos (pandas)
numeros = [1,3,4,7,8]
serie = pd.Series(numeros)
serie, type(serie)

(0    1
 1    3
 2    4
 3    7
 4    8
 dtype: int64,
 pandas.core.series.Series)

In [3]:
# Creación de un Data Frame
data = {
    "Nombre":["Amelia", "Salvador", "Pedro", "Camila", "Alienora"],
    "Edad": [22, 27, 21, 24, 26],
    "Ciudad": ["Barcelona", "Buenos Aires", "Los Angeles", "Santiago", "Rancagua"]
    
}

data, type(data)


({'Nombre': ['Amelia', 'Salvador', 'Pedro', 'Camila', 'Alienora'],
  'Edad': [22, 27, 21, 24, 26],
  'Ciudad': ['Barcelona',
   'Buenos Aires',
   'Los Angeles',
   'Santiago',
   'Rancagua']},
 dict)

In [4]:
# Generar un dataframe a partir de un dict

df = pd.DataFrame(data=data)
df

Unnamed: 0,Nombre,Edad,Ciudad
0,Amelia,22,Barcelona
1,Salvador,27,Buenos Aires
2,Pedro,21,Los Angeles
3,Camila,24,Santiago
4,Alienora,26,Rancagua


In [5]:
# exportar a CSV
df.to_csv("data.csv")

In [6]:
# importar un DataFrame
import_df = pd.read_csv("data.csv", index_col=0) # w/o index_col=0 appears an Unnamed Index
import_df

Unnamed: 0,Nombre,Edad,Ciudad
0,Amelia,22,Barcelona
1,Salvador,27,Buenos Aires
2,Pedro,21,Los Angeles
3,Camila,24,Santiago
4,Alienora,26,Rancagua


In [7]:
# Manipulación de objetos
    # selección de una columna

nombres = df["Nombre"]
print(nombres, type(nombres))


0      Amelia
1    Salvador
2       Pedro
3      Camila
4    Alienora
Name: Nombre, dtype: object <class 'pandas.core.series.Series'>


In [8]:
# selección de una o más columnas
df[["Nombre", "Ciudad"]]


Unnamed: 0,Nombre,Ciudad
0,Amelia,Barcelona
1,Salvador,Buenos Aires
2,Pedro,Los Angeles
3,Camila,Santiago
4,Alienora,Rancagua


In [9]:
# filtrar por índice 
fila = df.loc[4]
fila

Nombre    Alienora
Edad            26
Ciudad    Rancagua
Name: 4, dtype: object

In [10]:
# Filtrar por condición

df[df["Edad"] > 25]

Unnamed: 0,Nombre,Edad,Ciudad
1,Salvador,27,Buenos Aires
4,Alienora,26,Rancagua


In [11]:
# Conditions for a filter
filtro = (df["Edad"] > 23) & (df["Nombre"].str.startswith("A"))
df[filtro]

Unnamed: 0,Nombre,Edad,Ciudad
4,Alienora,26,Rancagua


In [12]:
# Filtrar por query
df.query("Edad < 23")


Unnamed: 0,Nombre,Edad,Ciudad
0,Amelia,22,Barcelona
2,Pedro,21,Los Angeles


In [13]:
# is in (certain data inside our og dict)
df[df["Nombre"].isin(["Ana", "Amelia", "Carlos", "Pedro"])]

Unnamed: 0,Nombre,Edad,Ciudad
0,Amelia,22,Barcelona
2,Pedro,21,Los Angeles


In [14]:
def longitud_5(nombres):
    return len(nombres) == 6

df[df["Nombre"].apply(longitud_5)]

Unnamed: 0,Nombre,Edad,Ciudad
0,Amelia,22,Barcelona
3,Camila,24,Santiago


In [15]:
# Filter by age btwn some range

df[df["Edad"].between(23, 35)]


Unnamed: 0,Nombre,Edad,Ciudad
1,Salvador,27,Buenos Aires
3,Camila,24,Santiago
4,Alienora,26,Rancagua


In [16]:
df

Unnamed: 0,Nombre,Edad,Ciudad
0,Amelia,22,Barcelona
1,Salvador,27,Buenos Aires
2,Pedro,21,Los Angeles
3,Camila,24,Santiago
4,Alienora,26,Rancagua


In [17]:
import numpy as np

In [18]:
# importación de data frame

data = {
    "Nombre":["Amelia", "Salvador", "Pedro", "Camila", "Alienora"],
    "Edad": [22, 27, np.nan, 24, 26], # nan for numbers
    "Ciudad": ["Barcelona", "Buenos Aires", "Los Angeles", None, "Rancagua"] # None for characters
    
}
# as python doesn't know what exactly to do with NaN or None data, run apart
df = pd.DataFrame(data) # when training a ML, clear out the previous data (Imputación de datos)
df

Unnamed: 0,Nombre,Edad,Ciudad
0,Amelia,22.0,Barcelona
1,Salvador,27.0,Buenos Aires
2,Pedro,,Los Angeles
3,Camila,24.0,
4,Alienora,26.0,Rancagua


In [19]:
# Rellenar los valores faltantes
df_fill = df.fillna(
    {
    "Edad" : df["Edad"].mean() # mediana, moda, prom, etc, lo que queramos
    }
    
)
df_fill

Unnamed: 0,Nombre,Edad,Ciudad
0,Amelia,22.0,Barcelona
1,Salvador,27.0,Buenos Aires
2,Pedro,24.75,Los Angeles
3,Camila,24.0,
4,Alienora,26.0,Rancagua


In [20]:
# another way is straight-forwardly eliminate missing data lines
df_sin_nan = df.dropna()
df_sin_nan

Unnamed: 0,Nombre,Edad,Ciudad
0,Amelia,22.0,Barcelona
1,Salvador,27.0,Buenos Aires
4,Alienora,26.0,Rancagua


In [21]:
# replace specific values from a column
df_reem = df.replace(
    {
    "Ciudad" : {None: "Desconocido"} # -> replaces None value with "Desconocido"
    }
)
df_reem

Unnamed: 0,Nombre,Edad,Ciudad
0,Amelia,22.0,Barcelona
1,Salvador,27.0,Buenos Aires
2,Pedro,,Los Angeles
3,Camila,24.0,Desconocido
4,Alienora,26.0,Rancagua


In [22]:
# interpolar valores nos genera otro dataframe
df_interpolate = df.copy()
df_interpolate["Edad"] = df["Edad"].interpolate()
df_interpolate # Pedro has been interpolated

Unnamed: 0,Nombre,Edad,Ciudad
0,Amelia,22.0,Barcelona
1,Salvador,27.0,Buenos Aires
2,Pedro,25.5,Los Angeles
3,Camila,24.0,
4,Alienora,26.0,Rancagua


In [23]:
# Eliminate duplicated data

duplicated_data = {
    "Nombre":["Amelia", "Salvador", "Pedro", "Camila", "Alienora", "Amelia"],
    "Edad": [22, 27, 21, 24, 26, 22],
    "Ciudad": ["Barcelona", "Buenos Aires", "Los Angeles", "Santiago", "Rancagua", "Barcelona"]
    
}
df_duplicado = pd.DataFrame(duplicated_data)
df_duplicado

Unnamed: 0,Nombre,Edad,Ciudad
0,Amelia,22,Barcelona
1,Salvador,27,Buenos Aires
2,Pedro,21,Los Angeles
3,Camila,24,Santiago
4,Alienora,26,Rancagua
5,Amelia,22,Barcelona


In [24]:
df_wo_duplicated = df_duplicado.drop_duplicates()
df_wo_duplicated

Unnamed: 0,Nombre,Edad,Ciudad
0,Amelia,22,Barcelona
1,Salvador,27,Buenos Aires
2,Pedro,21,Los Angeles
3,Camila,24,Santiago
4,Alienora,26,Rancagua


In [25]:
# rename in order to translate or jusut plainly rename data
df_rename = df.rename(columns={"Nombre" : "Name", "Edad" : "Age", "Ciudad" : "City"})
df_rename

Unnamed: 0,Name,Age,City
0,Amelia,22.0,Barcelona
1,Salvador,27.0,Buenos Aires
2,Pedro,,Los Angeles
3,Camila,24.0,
4,Alienora,26.0,Rancagua


In [26]:
# arrange columns order
columns_order = ["Ciudad", "Edad", "Nombre"]
df_order = df[columns_order]
df_order

Unnamed: 0,Ciudad,Edad,Nombre
0,Barcelona,22.0,Amelia
1,Buenos Aires,27.0,Salvador
2,Los Angeles,,Pedro
3,,24.0,Camila
4,Rancagua,26.0,Alienora


In [27]:
# Data Transformation
def square(x):
    return x ** 2

df["Edad_Cuadrado"] = df["Edad"].apply(square)
df

Unnamed: 0,Nombre,Edad,Ciudad,Edad_Cuadrado
0,Amelia,22.0,Barcelona,484.0
1,Salvador,27.0,Buenos Aires,729.0
2,Pedro,,Los Angeles,
3,Camila,24.0,,576.0
4,Alienora,26.0,Rancagua,676.0


In [28]:
# Agrupar y agregar datos

# 1. agrupación de datos
data = {
    "Nombre":["Amelia", "Salvador", "Pedro", "Camila", "Alienora", "Carla", "Bernardo"],
    "Ciudad": ["Santiago", "Los Angeles", "Los Angeles", "Santiago", "Rancagua", "Valdivia", "Santiago"],
    "Edad": [22, 27, 21, 24, 26, 21, 29],
    "Puntuación": [70, 55, 81, 49, 77, 84, 64]
    
}
df = pd.DataFrame(data)
df


Unnamed: 0,Nombre,Ciudad,Edad,Puntuación
0,Amelia,Santiago,22,70
1,Salvador,Los Angeles,27,55
2,Pedro,Los Angeles,21,81
3,Camila,Santiago,24,49
4,Alienora,Rancagua,26,77
5,Carla,Valdivia,21,84
6,Bernardo,Santiago,29,64


In [29]:
# Agrupar por ciudad / segmentar por ciudad
grouped = df.groupby("Ciudad")
print(grouped.groups)


{'Los Angeles': [1, 2], 'Rancagua': [4], 'Santiago': [0, 3, 6], 'Valdivia': [5]}


In [30]:
# Pandas, data agregation / calculate 
add_data = grouped.agg(
    {
        "Edad" : "mean",
        "Puntuación" : "sum"
    }
)
add_data

Unnamed: 0_level_0,Edad,Puntuación
Ciudad,Unnamed: 1_level_1,Unnamed: 2_level_1
Los Angeles,24.0,136
Rancagua,26.0,77
Santiago,25.0,183
Valdivia,21.0,84


In [31]:
# Definir una función de agregación personalizada
def rango(series):
    return series.max() - series.min()

# aplicar prsnlzed agg funct to the group

add_data_custom = grouped.agg(
    {
        "Edad":rango,
        "Puntuación":rango
    }
)
print(add_data_custom) # variations btwn max and min values

             Edad  Puntuación
Ciudad                       
Los Angeles     6          26
Rancagua        0           0
Santiago        7          21
Valdivia        0           0


In [32]:
# add a column // crear data frame como ie.

data = {
    "Nombre":["Amelia", "Salvador", "Pedro", "Camila", "Alienora", "Carla", "Bernardo"],
    "Edad": [22, 27, 21, 24, 26, 21, 29]
}
df = pd.DataFrame(data)
df


Unnamed: 0,Nombre,Edad
0,Amelia,22
1,Salvador,27
2,Pedro,21
3,Camila,24
4,Alienora,26
5,Carla,21
6,Bernardo,29


In [33]:
# creando la columna extra
df["Ciudad"] = ["Madrid", "Berlín", "Barcelona", "París", "Roma", "Londres", "Ginebra"]
df

Unnamed: 0,Nombre,Edad,Ciudad
0,Amelia,22,Madrid
1,Salvador,27,Berlín
2,Pedro,21,Barcelona
3,Camila,24,París
4,Alienora,26,Roma
5,Carla,21,Londres
6,Bernardo,29,Ginebra


In [34]:
# new row // AÑADE AUN EN DESORDEN
new_row = pd.Series({"Nombre" : "Gabriel", "Ciudad" : "Lisboa", "Edad" : 23}) # NCE VS NEC
# adding the row
df = pd.concat([df, new_row.to_frame().T], ignore_index=True) # vector columna + .T transposición
df
# ignore_index=True ->> para que el nuevo dato no tenga indice 0 y se cuente de ahi

Unnamed: 0,Nombre,Edad,Ciudad
0,Amelia,22,Madrid
1,Salvador,27,Berlín
2,Pedro,21,Barcelona
3,Camila,24,París
4,Alienora,26,Roma
5,Carla,21,Londres
6,Bernardo,29,Ginebra
7,Gabriel,23,Lisboa


In [40]:
# crear DF para ejemplo, luego un segundo DF
data1 = {
    "Nombre":["Amelia", "Salvador", "Pedro", "Camila"],
    "Edad": [22, 27, 21, 24]
}
df1 = pd.DataFrame(data1)
df1["Ciudad"] = ["Madrid", "Berlín", "Barcelona", "París"]

data2 = {
    "Nombre":["Alienora", "Carla", "Bernardo"],
    "Edad": [26, 21, 29]
}
df2 = pd.DataFrame(data2)
df2["Ciudad"] = ["Roma", "Londres", "Ginebra"]


In [41]:
df1

Unnamed: 0,Nombre,Edad,Ciudad
0,Amelia,22,Madrid
1,Salvador,27,Berlín
2,Pedro,21,Barcelona
3,Camila,24,París


In [42]:
df2

Unnamed: 0,Nombre,Edad,Ciudad
0,Alienora,26,Roma
1,Carla,21,Londres
2,Bernardo,29,Ginebra


In [43]:
# la mega combination con la f(x) CONCATENAR
df_mix = pd.concat([df1, df2], ignore_index= True)
df_mix

Unnamed: 0,Nombre,Edad,Ciudad
0,Amelia,22,Madrid
1,Salvador,27,Berlín
2,Pedro,21,Barcelona
3,Camila,24,París
4,Alienora,26,Roma
5,Carla,21,Londres
6,Bernardo,29,Ginebra
