#### **DataFrames y Series**

- **DataFrames** -> pd.DataFrame()
  - Estructura de datos bidimensional (varias columnas) en pandas.
  - Cada columna puede tener un tipo de dato diferente (números, cadenas, fechas, etc.).
  - Se pueden crear a partir de diccionarios, listas, archivos CSV, entre otros

- **Series** -> pd.Series()
  - Estructura de datos unidimensional (una sola columna) en pandas.
  - Similar a una columna de un DataFrame.
  - Puede contener cualquier tipo de dato y tiene un índice asociado.

#### **Operaciones con DataFrames** - Modificación de datos

Importamos pandas

In [None]:
import pandas as pd

#### **Reading CSV with Pandas**

- CSV is very heavy to work with.
- There are other file formats that are more efficient, but CSV is very common and easy to use.


In [None]:
results = pd.read_csv('../data/results.csv')
results

#### **Reading PARQUET with Pandas**

- PARQUET is a columnar storage file format that is more efficient than CSV.
- It is optimized for performance and storage.

In [None]:
data = pd.read_parquet("../data/results.parquet")
data.head(10)

In [None]:
# Convertir a CSV - no optimo
data_csv = data.to_csv("data.csv",index=False)

#### **SAMPLE - Obtener una muestra aleatoria de un DataFrame**
- **df.sample()** permite obtener una muestra aleatoria de un DataFrame.
  - _n_: indicar el numero de filas a seleccionar.
  - _frac_: indicar la fraccion de filas a seleccionar (no se puede usar junto a n).
  - _random_state_: indicar el valor para asegurar reproducibilidad en la seleccion aleatoria.
  - _replace_: si es True, permite seleccionar la misma fila mas de una vez.

In [None]:
random_data = data.sample(random_state=10, frac=0.001, replace=False)

random_data

#### **LOC (location) - Accesing data from file**

- **df.loc()** permite acceder a filas y columnas por etiquetas (nombres de filas y columnas)

- **df.iloc()** permite acceder a filas y columnas por indices (numeros de filas y columnas) solamente

#### **IAT (Index At) - Acceding a single row from a file**

- **df.iat()** permite acceder a un solo valor de una fila y columna especifica por indice (numero de fila y numero de columna)

In [None]:
# Acceder a la fila 300000 (index) hasta la 300003 (inclusive)
data.loc[300000:300003]

In [None]:
# Acceder a la fila 0, 5 y 10
data.loc[[0, 5, 10]]

In [None]:
# Acceder a las primeras 10 filas
data.loc[:10]

In [None]:
# Acceder desde la fila 10 hasta el final
data.loc[10:]

In [None]:
# Acceder a todas las filas solo de la columna "discipline"
data.loc[510:530, "discipline"]

In [None]:
# Acceder a las primeras 10 filas de las columnas "discipline" y "year"
data.loc[:9, ["discipline", "year"]]

In [None]:
# Acceder a las primeras 10 filas de las columnas en las posiciones 2 y 0
data.iloc[:10, [2, 0]]

In [None]:
# Filtrar filas por año mayor a 2020 mostrando solo 2 columnas
data.loc[data["year"] > 2020, ["year", "as"]]

In [None]:
# Filtrar filas por año mayor a 2018 y disciplina "Tennis" mostrando solo 2 columnas
data.loc[(data["year"] > 2018) & (data["discipline"] == "Tennis"), ["year", "discipline"]]

In [None]:
# Crear una nueva columa "age" 
data["age"] = 2026 - data["year"]
data.loc[:50, ["year", "age"]].sort_values(by="age", ascending=True)

In [None]:
# Generando un DataFrame de 10 filas ordenadas por la columna "place" en orden descendente
data_piece = data.sort_values(by=["place"], ascending=False).sample(n=10)

# Reemplazando los valores NaN en la columna "place" por 0
data_piece.loc[data_piece["place"].isna(), "place"] = 0

# Accediendo a la columna "place" del DataFrame generado
data_piece.loc[:, ["as", "place"]]
    

In [None]:
# Modificar el valor de la columna "year" en las primeras 10 filas a 2000
# Esto modifica el dataframe original
data.loc[:10, ["year"]] = 2000
data.loc[:15, ["year"]]

In [None]:
# Acceder al valor de la fila 0 y columna 0
data.iat[0, 0]

#### **sort_values() - Sort DataFrame by the values of one or more columns.**

- **df.sort_values()** permite ordenar un DataFrame por los valores de una o mas columnas.
  - _ascending:_ True, forma ascendente. False, forma descendente.
  - _by:_ para indicar las columnas por las que se quiere ordenar.
  - _inplace:_ True, para modificar el DataFrame original en lugar de crear una copia ordenada.

In [None]:
# Ordenar el DataFrama por las columnas "year" (descendente) y "as" (ascendente) sin modificar el archivo
data_sorted = data.sort_values(by=["year", "as"], ascending=[False, True], inplace=False)
data_sorted.head(10)

#### **Iterar sobre filas de un DataFrame**

- No es recomendable iterar sobre las filas de un DataFrame, ya que es ineficiente y va en contra del paradigma de pandas.
- Se puede usar el metodo iterrows() para iterar sobre las filas de un DataFrame.
  - Cada fila se devuelve como una tupla que contiene el indice de la fila y una Serie con los datos de la fila.
- Se puede usar el metodo itertuples() para iterar sobre las filas de un DataFrame.
  - Cada fila se devuelve como una tupla nombrada, donde los nombres de los campos son los nombres de las columnas.


In [None]:
# Iterar sobre las primeras 15 filas de un DataFrame
for index, row in data.head(15).iterrows():
    print(f"Index: {index}, Year: {row['year']}, Discipline: {row['discipline']}")

#### **DROP - Eliminar filas o columnas de un DataFrame**

- **df.drop()** permite eliminar filas o columnas de un DataFrame.
  - columns=[...] para eliminar columnas por nombre.
  - index=[...] para eliminar filas por indice.
  - axis=0 para eliminar filas (por defecto) o axis=1 para eliminar columnas.
  - inplace=True para modificar el DataFrame original en lugar de crear una copia modificada.
  - errors='ignore' para evitar errores si la fila o columna no existe.

- **df.dropna()** elimina filas o columnas con valores NaN.
  - _axis:_ especifica si eliminar filas (0) o columnas (1).
  - _how:_ 
    - _'any'_ elimina si hay al menos un NaN.
    - _'all'_ elimina solo si todos son NaN.
  - _thresh:_ numero minimo de valores no-NaN requeridos para mantener la fila/columna.
  - _inplace:_ si es True, modifica el DataFrame original en lugar de crear una copia modificada.

- **df.drop_duplicates()** elimina filas duplicadas en un DataFrame.
  - _subset:_ lista de columnas para considerar al identificar duplicados.
  - _keep:_ 'first' (por defecto) mantiene la primera ocurrencia, 'last' mantiene la ultima, False elimina todas las duplicadas.
  - _inplace:_ si es True, modifica el DataFrame original en lugar de crear una copia modificada.

In [None]:
new_data = pd.read_parquet("../data/results.parquet")
new_data.head(0)

In [None]:
# Eliminar la columna "tied" sin modificar el DataFrame original
new_data.drop(columns=["tied"], inplace=False)

In [None]:
new_data.loc[new_data["place"].isna()]

#### **Copy() - Crear una copia de un DataFrame**

- Pandas utiliza referencias a los datos originales para optimizar el uso de memoria.
- Para crear una copia independiente de un DataFrame, se puede usar el metodo copy().
- Esto es util cuando se quiere modificar un DataFrame sin afectar al original.


In [None]:
# Mismo espacio de memoria
new_data = data

# Eliminar la columna "year" modificando el DataFrame original
new_data.drop(columns=["year"], inplace=True)

new_data.head(10)

In [None]:
# Diferente espacio de memoria
new_data = data.copy()

# Eliminar la columna "year" sin modificar el DataFrame original
new_data.drop(columns=["year"], inplace=True)

new_data.head(10)

#### **Rename y Replace - Renombrar filas / columas y reemplazar valores**

- **df.rename()** permite renombrar filas o columnas de un DataFrame.
  - _columns={...}_ para renombrar columnas por nombre.
  - _index={...}_ para renombrar filas por indice.
  - _inplace=True_ para modificar el DataFrame original en lugar de crear una copia modificada.

- **df.replace()** permite reemplazar valores en un DataFrame.
  - first argument is the value to be replaced.
  - second argument is the value to replace with.

In [None]:
bios = pd.read_csv("../data/bios.csv")

In [None]:
# Renombramos la columna "as" a "name" y "discipline" a "sport" sin modificar el DataFrame original
new_data.rename(columns={"as": "name", "discipline": "sport"}, inplace=False)

In [None]:
# Reemplazamos el valor 180 en la columna "height_cm" por 190
bios["height_cm"] = bios["height_cm"].replace(180, 190)

# Mostramos 5 filas donde la altura es 190 cm
bios[bios["height_cm"] == 190].sample(5)

#### **to_datetime y dt - Acceder a propiedades de fechas en una columna datetime**

- **pd.to_datetime()** permite convertir una columna a tipo datetime.
  - _format:_ especifica el formato de la fecha en la columna original.
  - _errors:_ especifica como manejar errores en la conversion ('raise', 'coerce', 'ignore').
  - _utc:_ si es True, convierte las fechas a UTC.
- **df.dt.option** permite acceder a propiedades de fechas en una columna datetime.
  - Se puede acceder a propiedades como year, month, day, hour, minute, second, weekday, etc.
  - Se puede usar para crear nuevas columnas basadas en propiedades de fechas.

In [None]:
bios_data = pd.read_csv("../data/bios.csv")
bios_data.head(4)

In [None]:
# Convertir la columna "born_date" a tipo datetime
bios_data["born_date"] = pd.to_datetime(bios_data["born_date"])
# bios_data.info()

In [None]:
# Acceder al año
bios_data["born_year"] = bios_data["born_date"].dt.year

# Acceder al mes
bios_data["born_month"] = bios_data["born_date"].dt.month

# Acceder al día
bios_data["born_day"] = bios_data["born_date"].dt.day

bios_data.head(10)

#### **Apply - Aplicar una funcion a lo largo de un eje de un DataFrame**

- **df.apply()** permite aplicar una funcion a lo largo de un eje de un DataFrame (filas o columnas).
  - _axis=0_ aplica la funcion a cada columna (por defecto).
  - _axis=1_ aplica la funcion a cada fila.
  - La funcion puede ser una funcion definida por el usuario o una funcion lambda.
  

In [None]:
# Crear una nueva columna "weight_class" basada en la columna "weight_kg" usando apply() y una funcion lambda
bios_data["weight_class"] = bios_data["weight_kg"].apply(lambda x: "Heavyweight" if x >= 100 else ("Normalweight" 
if x >= 70 else "Lightweight"))

bios_data.sample(n=10)

In [None]:
# Crear una nueva columna "height_class" basada en la columna "height_cm" usando apply() y una funcion definida por el usuario
def height_class(row):
  if row["height_cm"] >= 190:
    return "Tall"
  elif row["height_cm"] >= 170 and row["height_cm"] < 190:
    return "Average"
  else :
    return "Short"

# Aplicar la funcion a lo largo de las filas (axis=1)
bios_data["height_class"] = bios_data.apply(height_class, axis=1)

bios_data.sample(n=10)

#### **merge y concat - Combinar dos DataFrames basados en una o mas columnas clave**

- **df.merge()** permite combinar dos DataFrames basados en una o mas columnas clave.
  - _on:_ especifica las columnas clave comunes en ambos DataFrames.
  - _left_on:_ especifica las columnas clave en el DataFrame izquierdo.
  - _right_on:_ especifica las columnas clave en el DataFrame derecho.
  - _how:_ especifica el tipo de combinacion ('inner', 'outer', 'left', 'right').
    - _inner:_ solo filas con claves coincidentes en ambos DataFrames.
    - _outer:_ todas las filas de ambos DataFrames, con NaN donde no hay coincidencia.
    - _left:_ todas las filas del DataFrame izquierdo, con NaN donde no hay coincidencia en el derecho.
    - _right:_ todas las filas del DataFrame derecho, con NaN donde no hay coincidencia en el izquierdo.

- **pd.concat()** permite concatenar dos o mas DataFrames a lo largo de un eje (filas o columnas).
  - _axis=0_ concatena a lo largo de las filas (por defecto). Es como si apilaras los DataFrames uno encima del otro.
  - _axis=1_ concatena a lo largo de las columnas. Es como si pusieras los DataFrames uno al lado del otro.
  - _ignore_index=True_ para reindexar el DataFrame resultante.
  - _join='inner'_ para realizar una interseccion de columnas (por defecto).
  - _join='outer'_ para realizar una union de columnas.
  - _keys=[...]_ para crear un MultiIndex en el DataFrame resultante.
  - _levels=[...]_ para especificar los niveles del MultiIndex.

In [31]:
noc_regions = pd.read_csv("../data/noc_regions.csv")
bios_data = pd.read_csv("../data/bios.csv")
bios_data.head(0)

Unnamed: 0,athlete_id,name,born_date,born_city,born_region,born_country,NOC,height_cm,weight_kg,died_date


In [None]:
noc_reduced = noc_regions[["region", "NOC"]]
new_bios_data = pd.merge(bios_data, noc_reduced, left_on="born_country", right_on="NOC", how="inner")
new_bios_data.drop(columns=["NOC_y"], inplace=True)
new_bios_data.rename(columns={"region": "born_country_name", "NOC_x": "NOC"}, inplace=True)
new_bios_data.sample(n=5)

In [43]:
pd.merge(bios_data, noc_regions, on="NOC", how="left")

Unnamed: 0,athlete_id,name,born_date,born_city,born_region,born_country,NOC,height_cm,weight_kg,died_date,region,notes
0,1,Jean-François Blanchy,1886-12-12,Bordeaux,Gironde,FRA,France,,,1960-10-02,,
1,2,Arnaud Boetsch,1969-04-01,Meulan,Yvelines,FRA,France,183.0,76.0,,,
2,3,Jean Borotra,1898-08-13,Biarritz,Pyrénées-Atlantiques,FRA,France,183.0,76.0,1994-07-17,,
3,4,Jacques Brugnon,1895-05-11,Paris VIIIe,Paris,FRA,France,168.0,64.0,1978-03-20,,
4,5,Albert Canet,1878-04-17,Wandsworth,England,GBR,France,,,1930-07-25,,
...,...,...,...,...,...,...,...,...,...,...,...,...
145495,149222,Polina Luchnikova,2002-01-30,Serov,Sverdlovsk,RUS,ROC,167.0,61.0,,,
145496,149223,Valeriya Merkusheva,1999-09-20,Moskva (Moscow),Moskva,RUS,ROC,168.0,65.0,,,
145497,149224,Yuliya Smirnova,1998-05-08,Kotlas,Arkhangelsk,RUS,ROC,163.0,55.0,,,
145498,149225,André Foussard,1899-05-19,Niort,Deux-Sèvres,FRA,France,166.0,,1986-03-18,,


#### **Not Asigned Values Functions**

- **df.isna()** devuelve el DataFrame con valores booleanos indicando si el valor es NaN.

- **df.isnull()** es un alias de df.isna() y funciona de la misma manera.
  - Se puede utilizar junto con df.sum() para contar el numero de valores NaN en cada columna.

- **df.notna()** devuelve el DataFrame con valores booleanos indicando si el valor no es NaN.

- **df.notnull()** es un alias de df.notna() y funciona de la misma manera.
  - Se puede utilizar junto con df.sum() para contar el numero de valores no NaN en cada columna.

- **df.fillna()** permite rellenar valores NaN con un valor especifico
  - _value:_ el valor con el que se rellenaran los NaN.
  - _inplace:_ si es True, modifica el DataFrame original en lugar de crear una copia modificada.
  - _method:_ metodo de relleno.
    - _'ffill'_ rellena el valor con el valor anterior.
    - _'bfill'_ rellena el valor con el valor siguiente.


In [None]:
coffee = pd.read_csv("../data/coffee.csv")

In [None]:
# Rellenar los valores NaN en la columna "Units Sold" con el promedio de la columna
coffee.fillna(value=0, inplace=True)

coffee

#### **Useful functions**

- **df.mean()** calcula el promedio de los valores numéricos de una columna (ignora valores NaN).
  - _skipna:_ si es True (por defecto), ignora los valores NaN en el calculo.
  - _numeric_only:_ si es True, solo considera columnas numericas.

- **df.median()** calcula la mediana de los valores numéricos.

- **df.min()** calcula el valor minimo de una columna.
  - _skipna:_ si es True (por defecto), ignora los valores NaN en el calculo.
  - _numeric_only:_ si es True, solo considera columnas numericas.

- **df.max()** calcula el valor maximo de una columna.
  - _skipna:_ si es True (por defecto), ignora los valores NaN en el calculo.
  - _numeric_only:_ si es True, solo considera columnas numericas.

- **df.sum()** calcula la suma de los valores numéricos de una columna.
  - _skipna:_ si es True (por defecto), ignora los valores NaN en el calculo.
  - _numeric_only:_ si es True, solo considera columnas numericas.

- **df.cumsum()** calcula la suma acumulativa de los valores a lo largo de un eje.
  - _axis:_ especifica el eje a lo largo del cual se aplica la suma acumulativa (0 para filas, 1 para columnas).

- **df.value_counts()** cuenta la frecuencia de valores únicos en una columna.

- **df.unique()** devuelve los valores únicos en una columna.

- **df.duplicated()** devuelve las filas duplicadas en un DataFrame.

- **interpolate()** permite rellenar valores NaN mediante interpolación (patrones de valores).
  - _method:_ especifica el metodo de interpolacion ('linear', 'time', 'index', 'values', 'nearest', 'zero', 'slinear', 'quadratic', 'cubic').
  - _limit:_ especifica el numero maximo de valores NaN a rellenar.
  - _inplace:_ si es True, modifica el DataFrame original en lugar de crear una copia modificada.
  - _axis:_ especifica el eje a lo largo del cual se aplica la interpolacion (0 para filas, 1 para columnas).

- **pd.groupby()** permite agrupar un DataFrame por una o mas columnas y aplicar funciones de agregacion.
  - _by:_ especifica las columnas por las que se quiere agrupar.
  - _aggfunc:_ especifica la funcion de agregacion a aplicar (por ejemplo, 'mean', 'sum', 'count', etc.).

- **df.agg()** permite aplicar una o mas funciones de agregacion a un DataFrame agrupado.
  - Se puede pasar un diccionario para aplicar diferentes funciones a diferentes columnas.
    - _Ejemplo_: df.agg({'col1': 'mean', 'col2': ['sum', 'max']})
  - _func:_ especifica la funcion o lista de funciones de agregacion a aplicar.
  - _axis:_ especifica el eje a lo largo del cual se aplica la agregacion (0 para filas, 1 para columnas).

- **df.pivot()** permite reorganizar un DataFrame creando una tabla pivote.
  - _index:_ especifica las columnas que se utilizaran como indice (filas) en la tabla pivote.
  - _columns:_ especifica las columnas que se utilizaran como columnas en la tabla pivote.
  - _values:_ especifica las columnas cuyos valores se agregaran en la tabla pivote.
  - _aggfunc:_ especifica la funcion de agregacion a aplicar a los valores (por defecto es 'mean').

- **df.shift()** permite desplazar los valores de un DataFrame hacia arriba o hacia abajo.
  - _periods:_ especifica el numero de periodos a desplazar (positivo -> abajo, negativo -> arriba).
  - _axis:_ especifica el eje a lo largo del cual se aplica el desplazamiento (0 para filas, 1 para columnas).

In [None]:
coffee = pd.read_csv("../warmup-data/coffee.csv")
bios = pd.read_csv("../data/bios.csv")
results = pd.read_parquet("../data/results.parquet")
bios["born_date"] = pd.to_datetime(bios["born_date"])
bios["died_date"] = pd.to_datetime(bios["died_date"])
coffee["price"] = coffee["Coffee Type"].map({"Espresso": 3.0, "Latte": 4.0})

In [None]:
# Rellenar los valores NaN en la columna "Units Sold" con el promedio de la columna
coffee.fillna(coffee["Units Sold"].mean(), inplace=True)

coffee

In [None]:
# Buscar las filas donde el tipo de café es "Espresso"
coffee_espresso = coffee.loc[coffee["Coffee Type"] == "Espresso"]

# Calcular el promedio de la columna "Units Sold" para los cafés tipo "Espresso"
coffee_espresso["Units Sold"].mean()

In [None]:
# Obtener cuantos cafes se vendieron por dia (ordenado numericamente)
coffee["Day"].value_counts()

In [None]:
# Filtramos las personas que nacieron en USA
usa_bios = bios[bios["born_country"] == "USA"]

# Calculamos el promedio de la altura en cm redondeado a 2 decimales
usa_bios["height_cm"].mean().round(2)

In [None]:
# Rellenar los valores NaN en la columna "height_cm" usando interpolación lineal
bios["height_cm"].fillna(bios["height_cm"].interpolate(), inplace=True)

# Calcular el promedio de altura por país de nacimiento, redondeado a 2 decimales, y mostrar una muestra aleatoria de 5 países
bios.groupby(["born_country"])["height_cm"].mean().round(2).sample(n=5)

In [None]:
# Rellenar los valores NaN en la columna "weight_kg" usando interpolación lineal
bios["weight_kg"].fillna(bios["weight_kg"].interpolate(), inplace=True)

# Calcular el promedio de peso por NOC para las personas nacidas antes del 2000, redondeado a 2 decimales
bios[bios["born_date"].dt.year < 2000].groupby("NOC")["weight_kg"].mean().round(2).sample(n=5)

In [None]:
# Crear una tabla pivote con los días como índice, los tipos de café como columnas y las unidades vendidas como valores
coffee["Units Sold"] = coffee["Units Sold"].fillna(coffee["Units Sold"].interpolate()).round(2)
pivot = coffee.pivot(columns="Coffee Type", index="Day", values="Units Sold")
pivot

In [None]:
# Obtenemos los años, meses y días de fallecimiento y contamos las ocurrencias
bios["year_died"] = bios["died_date"].dt.year
bios["month_died"] = bios["died_date"].dt.month
bios["day_died"] = bios["died_date"].dt.day

# Contar las ocurrencias de fallecimientos por fecha y mostrar los 10 días con menos fallecimientos
bios.groupby(["year_died", "month_died", "day_died"])["name"].count().reset_index(name="count").sort_values(by="count", ascending=True).head(10)

In [None]:
# Rellenar los valores NaN en la columna "Units Sold" usando interpolación lineal y redondear a 2 decimales
coffee["Units Sold"] = coffee["Units Sold"].fillna(coffee["Units Sold"].interpolate()).round(2)

# Calcular los ingresos totales por tipo de café, asumiendo que el precio por unidad es: Espresso = $3.0, Latte = $4.0
coffee["revenue"] = coffee["Units Sold"] * coffee["price"]

# Mover los ingresos 2 filas hacia abajo para visualizar mejor la diferencia de revenue entre dias
coffee["yesterday_revenue"] = coffee["revenue"].shift(2)

# Calcular la diferencia de ingresos entre el día actual y el día anterior
coffee["difference_revenue"] = coffee["revenue"] - coffee["yesterday_revenue"]

coffee

In [None]:
# Rellenar los valores NaN en la columna "born_date" usando interpolación lineal
bios["born_date"] = bios["born_date"].fillna(bios["born_date"].interpolate())

# Contar los 10 días del mes con más nacimientos
bios["born_date"].dt.day.value_counts().head(10).reset_index(name="count").rename(columns={"born_date": "day"})

In [None]:
# Crear una nueva columna "total_revenue" que contenga la suma acumulativa de los ingresos diarios

coffee["Units Sold"] = coffee["Units Sold"].fillna(coffee["Units Sold"].interpolate()).round(2)

coffee["revenue"] = coffee["Units Sold"] * coffee["price"]

coffee["total_revenue"] = coffee["revenue"].cumsum()

coffee

In [None]:
coffee["Units Sold"] = coffee["Units Sold"].fillna(coffee["Units Sold"].interpolate()).round(2)
coffee["revenue"] = coffee["Units Sold"] * coffee["price"]

espresso_mask = coffee["Coffee Type"] == "Espresso"
latte_mask = coffee["Coffee Type"] == "Latte"

coffee["espresso_revenue"] = coffee["revenue"].where(espresso_mask).cumsum().ffill()
coffee["latte_revenue"] = coffee["revenue"].where(latte_mask).cumsum().ffill()

coffee["espresso_units_sold"] = coffee["Units Sold"].where(espresso_mask).cumsum().ffill()
coffee["latte_units_sold"] = coffee["Units Sold"].where(latte_mask).cumsum().ffill()

coffee

In [None]:
bios[(bios["born_region"] == "New Hampshire") | (bios["born_city"] == "San Francisco")][["name", "born_region", "born_city"]].sample(5)