#### Operaciones con DataFrames - Modificación de datos

Importamos pandas

In [None]:
import pandas as pd

#### Reading CSV with Pandas

- CSV is very heavy to work with.
- There are other file formats that are more efficient, but CSV is very common and easy to use.


In [None]:
results = pd.read_csv('../data/results.csv')
results

#### Reading PARQUET with Pandas

- PARQUET is a columnar storage file format that is more efficient than CSV.
- It is optimized for performance and storage.

In [None]:
data = pd.read_parquet("../data/results.parquet")
data.head(10)

In [None]:
# Convertir a CSV - no optimo
data_csv = data.to_csv("data.csv",index=False)

#### SAMPLE - Obtener una muestra aleatoria de un DataFrame
- sample() permite obtener una muestra aleatoria de un DataFrame.
  - n: indicar el numero de filas a seleccionar.
  - frac: indicar la fraccion de filas a seleccionar (no se puede usar junto a n).
  - random_state: indicar el valor para asegurar reproducibilidad en la seleccion aleatoria.
  - replace: si es True, permite seleccionar la misma fila mas de una vez.

In [None]:
random_data = data.sample(random_state=10, frac=0.001, replace=False)

random_data

#### LOC (location) - Accesing data from file

- loc permite acceder a filas y columnas por etiquetas (nombres de filas y columnas)
- iloc permite acceder a filas y columnas por indices (numeros de filas y columnas) solamente

#### IAT (Index At) - Acceding a single row from a file

- iat permite acceder a un solo valor de una fila y columna especifica por indice (numero de fila y numero de columna)

In [None]:
# Acceder a la fila 300000 (index) hasta la 300003 (inclusive)
data.loc[300000:300003]

In [None]:
# Acceder a la fila 0, 5 y 10
data.loc[[0, 5, 10]]

In [None]:
# Acceder a las primeras 10 filas
data.loc[:10]

In [None]:
# Acceder desde la fila 10 hasta el final
data.loc[10:]

In [None]:
# Acceder a todas las filas solo de la columna "discipline"
data.loc[510:530, "discipline"]

In [None]:
# Acceder a las primeras 10 filas de las columnas "discipline" y "year"
data.loc[:9, ["discipline", "year"]]

In [None]:
# Acceder a las primeras 10 filas de las columnas en las posiciones 2 y 0
data.iloc[:10, [2, 0]]

In [None]:
# Filtrar filas por año mayor a 2020 mostrando solo 2 columnas
data.loc[data["year"] > 2020, ["year", "as"]]

In [None]:
# Filtrar filas por año mayor a 2018 y disciplina "Tennis" mostrando solo 2 columnas
data.loc[(data["year"] > 2018) & (data["discipline"] == "Tennis"), ["year", "discipline"]]

In [None]:
# Crear una nueva columa "age" 
data["age"] = 2026 - data["year"]
data.loc[:50, ["year", "age"]].sort_values(by="age", ascending=True)

In [None]:
# Generando un DataFrame de 10 filas ordenadas por la columna "place" en orden descendente
data_piece = data.sort_values(by=["place"], ascending=False).sample(n=10)

# Reemplazando los valores NaN en la columna "place" por 0
data_piece.loc[data_piece["place"].isna(), "place"] = 0

# Accediendo a la columna "place" del DataFrame generado
data_piece.loc[:, ["as", "place"]]
    

In [None]:
# Modificar el valor de la columna "year" en las primeras 10 filas a 2000
# Esto modifica el dataframe original
data.loc[:10, ["year"]] = 2000
data.loc[:15, ["year"]]

In [None]:
# Acceder al valor de la fila 0 y columna 0
data.iat[0, 0]

#### sort_values() - Sort DataFrame by the values of one or more columns.

- sort_values() permite ordenar un DataFrame por los valores de una o mas columnas.
- Por defecto, ordena en orden ascendente (ascending=True).
  - Se puede especificar el parametro ascending=False para ordenar en orden descendente. Se puede usar una lista de booleanos para ordenar diferentes columnas en diferentes ordenes.
  - Se puede especificar el parametro by para indicar las columnas por las que se quiere ordenar.
  - Se puede especificar el parametro inplace=True para modificar el DataFrame original en lugar de crear una copia ordenada.

In [None]:
# Ordenar el DataFrama por las columnas "year" (descendente) y "as" (ascendente) sin modificar el archivo
data_sorted = data.sort_values(by=["year", "as"], ascending=[False, True], inplace=False)
data_sorted.head(10)

#### Iterar sobre filas de un DataFrame

- No es recomendable iterar sobre las filas de un DataFrame, ya que es ineficiente y va en contra del paradigma de pandas.
- Se puede usar el metodo iterrows() para iterar sobre las filas de un DataFrame.
  - Cada fila se devuelve como una tupla que contiene el indice de la fila y una Serie con los datos de la fila.
- Se puede usar el metodo itertuples() para iterar sobre las filas de un DataFrame.
  - Cada fila se devuelve como una tupla nombrada, donde los nombres de los campos son los nombres de las columnas.


In [None]:
# Iterar sobre las primeras 15 filas de un DataFrame
for index, row in data.head(15).iterrows():
    print(f"Index: {index}, Year: {row['year']}, Discipline: {row['discipline']}")

#### DROP - Eliminar filas o columnas de un DataFrame

- drop() permite eliminar filas o columnas de un DataFrame.
  - Se puede especificar columns=[...] para eliminar columnas por nombre.
  - Se puede especificar index=[...] para eliminar filas por indice.
  - Se puede especificar el parametro axis=0 para eliminar filas (por defecto) o axis=1 para eliminar columnas.
  - Se puede especificar el parametro inplace=True para modificar el DataFrame original en lugar de crear una copia modificada.
  - Se puede especificar el parametro errors='ignore' para evitar errores si la fila o columna no existe.

In [None]:
new_data = pd.read_parquet("../data/results.parquet")
new_data.head(0)

In [None]:
# Eliminar la columna "tied" sin modificar el DataFrame original
new_data.drop(columns=["tied"], inplace=False)

In [None]:
new_data.loc[new_data["place"].isna()]

#### Copy() - Crear una copia de un DataFrame

- Pandas utiliza referencias a los datos originales para optimizar el uso de memoria.
- Para crear una copia independiente de un DataFrame, se puede usar el metodo copy().
- Esto es util cuando se quiere modificar un DataFrame sin afectar al original.


In [None]:
# Mismo espacio de memoria
new_data = data

# Eliminar la columna "year" modificando el DataFrame original
new_data.drop(columns=["year"], inplace=True)

new_data.head(10)

In [None]:
# Diferente espacio de memoria
new_data = data.copy()

# Eliminar la columna "year" sin modificar el DataFrame original
new_data.drop(columns=["year"], inplace=True)

new_data.head(10)

#### Rename - Renombrar filas o columnas de un DataFrame

- rename() permite renombrar filas o columnas de un DataFrame.
  - Se puede especificar el parametro columns={...} para renombrar columnas por nombre.
  - Se puede especificar el parametro index={...} para renombrar filas por indice.
  - Se puede especificar el parametro inplace=True para modificar el DataFrame original en lugar de crear una copia modificada.

In [None]:
# Renombramos la columna "as" a "name" y "discipline" a "sport" sin modificar el DataFrame original
new_data.rename(columns={"as": "name", "discipline": "sport"}, inplace=False)

#### to_datetime y dt - Acceder a propiedades de fechas en una columna datetime

- to_datetime() permite convertir una columna a tipo datetime.
  - format: especifica el formato de la fecha en la columna original.
  - errors: especifica como manejar errores en la conversion ('raise', 'coerce', 'ignore').
  - utc: si es True, convierte las fechas a UTC.
- dt permite acceder a propiedades de fechas en una columna datetime.
  - Se puede acceder a propiedades como year, month, day, hour, minute, second, weekday, etc.
  - Se puede usar para crear nuevas columnas basadas en propiedades de fechas.

In [None]:
bios_data = pd.read_csv("../data/bios.csv")
bios_data.head(4)

In [None]:
# Convertir la columna "born_date" a tipo datetime
bios_data["born_date"] = pd.to_datetime(bios_data["born_date"])
# bios_data.info()

In [None]:
# Acceder al año
bios_data["born_year"] = bios_data["born_date"].dt.year

# Acceder al mes
bios_data["born_month"] = bios_data["born_date"].dt.month

# Acceder al día
bios_data["born_day"] = bios_data["born_date"].dt.day

bios_data.head(10)

#### Apply - Aplicar una funcion a lo largo de un eje de un DataFrame

- apply() permite aplicar una funcion a lo largo de un eje de un DataFrame (filas o columnas).
  - axis=0 aplica la funcion a cada columna (por defecto).
  - axis=1 aplica la funcion a cada fila.
  - La funcion puede ser una funcion definida por el usuario o una funcion lambda.
  

In [None]:
# Crear una nueva columna "weight_class" basada en la columna "weight_kg" usando apply() y una funcion lambda
bios_data["weight_class"] = bios_data["weight_kg"].apply(lambda x: "Heavyweight" if x >= 100 else ("Normalweight" 
if x >= 70 else "Lightweight"))

bios_data.sample(n=10)

In [None]:
# Crear una nueva columna "height_class" basada en la columna "height_cm" usando apply() y una funcion definida por el usuario
def height_class(row):
  if row["height_cm"] >= 190:
    return "Tall"
  elif row["height_cm"] >= 170 and row["height_cm"] < 190:
    return "Average"
  else :
    return "Short"

# Aplicar la funcion a lo largo de las filas (axis=1)
bios_data["height_class"] = bios_data.apply(height_class, axis=1)

bios_data.sample(n=10)

#### merge - Combinar dos DataFrames basados en una o mas columnas clave

- merge() permite combinar dos DataFrames basados en una o mas columnas clave.
  - on: especifica las columnas clave comunes en ambos DataFrames.
  - left_on: especifica las columnas clave en el DataFrame izquierdo.
  - right_on: especifica las columnas clave en el DataFrame derecho.
  - how: especifica el tipo de combinacion ('inner', 'outer', 'left', 'right').
    - 'inner': solo filas con claves coincidentes en ambos DataFrames.
    - 'outer': todas las filas de ambos DataFrames, con NaN donde no hay coincidencia.
    - 'left': todas las filas del DataFrame izquierdo, con NaN donde no hay coincidencia en el derecho.
    - 'right': todas las filas del DataFrame derecho, con NaN donde no hay coincidencia en el izquierdo.

In [None]:
noc_regions = pd.read_csv("../data/noc_regions.csv")
noc_regions.head(0)

In [None]:
noc_reduced = noc_regions[["region", "NOC"]]
new_bios_data = pd.merge(bios_data, noc_reduced, left_on="born_country", right_on="NOC", how="inner")
new_bios_data.drop(columns=["NOC_y"], inplace=True)
new_bios_data.rename(columns={"region": "born_country_name", "NOC_x": "NOC"}, inplace=True)
new_bios_data.sample(n=5)

#### **Useful functions**

- **df.mean()** calcula el promedio de los valores numéricos de una columna (ignora valores NaN).
  - _skipna:_ si es True (por defecto), ignora los valores NaN en el calculo.
- **df.median()** calcula la mediana de los valores numéricos.
- **df.isna()** devuelve el DataFrame con valores booleanos indicando si el valor es NaN.
- **df.notna()** devuelve el DataFrame con valores booleanos indicando si el valor no es NaN.
- **df.dropna()** elimina filas o columnas con valores NaN.
  - _axis:_ especifica si eliminar filas (0) o columnas (1).
  - _how:_ 'any' elimina si hay al menos un NaN, 'all' elimina solo si todos son NaN.
  - _thresh:_ numero minimo de valores no-NaN requeridos para mantener la fila/columna.
  - _inplace:_ si es True, modifica el DataFrame original en lugar de crear una copia modificada.
- **df.sum()** calcula la suma de los valores numéricos de una columna.
- **df.value_counts()** cuenta la frecuencia de valores únicos en una columna.
- **df.unique()** devuelve los valores únicos en una columna.
- **interpolate()** permite rellenar valores NaN mediante interpolación (patrones de valores).
  - _method:_ especifica el metodo de interpolacion ('linear', 'time', 'index', 'values', 'nearest', 'zero', 'slinear', 'quadratic', 'cubic').
  - _limit:_ especifica el numero maximo de valores NaN a rellenar.
  - _inplace:_ si es True, modifica el DataFrame original en lugar de crear una copia modificada.
  - _axis:_ especifica el eje a lo largo del cual se aplica la interpolacion (0 para filas, 1 para columnas).
- **df.fillna()** permite rellenar valores NaN con un valor especifico
  - _value:_ el valor con el que se rellenaran los NaN.
  - _inplace:_ si es True, modifica el DataFrame original en lugar de crear una copia modificada.
- **pd.groupby()** permite agrupar un DataFrame por una o mas columnas y aplicar funciones de agregacion.
  - _by:_ especifica las columnas por las que se quiere agrupar.
  - _aggfunc:_ especifica la funcion de agregacion a aplicar (por ejemplo, 'mean', 'sum', 'count', etc.).

In [None]:
coffee = pd.read_csv("../warmup-data/coffee.csv")
bios = pd.read_csv("../data/bios.csv")
bios["born_date"] = pd.to_datetime(bios["born_date"])
bios["died_date"] = pd.to_datetime(bios["died_date"])

In [None]:
# Buscar las filas donde el tipo de café es "Espresso"
coffee_espresso = coffee.loc[coffee["Coffee Type"] == "Espresso"]

# Calcular el promedio de la columna "Units Sold" para los cafés tipo "Espresso"
coffee_espresso["Units Sold"].mean()

In [None]:
# Rellenar los valores NaN en la columna "Units Sold" con el promedio de la columna
coffee.fillna(coffee["Units Sold"].mean(), inplace=True)

coffee

In [None]:
# Rellenar los valores NaN en la columna "Units Sold" usando interpolación
coffee["Units Sold"] = coffee["Units Sold"].fillna(coffee["Units Sold"].interpolate())

coffee

In [None]:
# Obtener cuantos cafes se vendieron por dia (ordenado numericamente)
coffee["Day"].value_counts()

In [None]:
# Filtramos las personas que nacieron en USA
usa_bios = bios[bios["born_country"] == "USA"]

# Calculamos el promedio de la altura en cm redondeado a 2 decimales
usa_bios["height_cm"].mean().round(2)

In [163]:
bios.groupby("born_country").value_counts().head(3)

born_country  athlete_id  name                     born_date   born_city  born_region  NOC          height_cm  weight_kg  died_date 
AFG           57056       Mohammad Ebrahimi        1930-04-11  Kabul      Kabul        Afghanistan  160.0      63.0       2022-05-22    1
              57072       Mohammad Ibrahim Kederi  1940-08-10  Kabul      Kabul        Afghanistan  166.0      62.0       2022-05-22    1
ALG           3082        Antoine Porcel           1937-12-17  Oran       Oran         France       165.0      51.0       2014-03-22    1
Name: count, dtype: int64