#### Operaciones con DataFrames - Modificación de datos

Importamos pandas

In [None]:
import pandas as pd

#### Reading CSV with Pandas

- CSV is very heavy to work with.
- There are other file formats that are more efficient, but CSV is very common and easy to use.


In [None]:
results = pd.read_csv('../data/results.csv')
results

#### Reading PARQUET with Pandas

- PARQUET is a columnar storage file format that is more efficient than CSV.
- It is optimized for performance and storage.

In [None]:
data = pd.read_parquet("../data/results.parquet")
data.head(10)

In [None]:
# Convertir a CSV - no optimo
data_csv = data.to_csv("data.csv",index=False)

#### SAMPLE - Obtener una muestra aleatoria de un DataFrame
- sample() permite obtener una muestra aleatoria de un DataFrame.
  - n: indicar el numero de filas a seleccionar.
  - frac: indicar la fraccion de filas a seleccionar (no se puede usar junto a n).
  - random_state: indicar el valor para asegurar reproducibilidad en la seleccion aleatoria.
  - replace: si es True, permite seleccionar la misma fila mas de una vez.

In [None]:
random_data = data.sample(random_state=10, frac=0.001, replace=False)

random_data

#### LOC (location) - Accesing data from file

- loc permite acceder a filas y columnas por etiquetas (nombres de filas y columnas)
- iloc permite acceder a filas y columnas por indices (numeros de filas y columnas) solamente

#### IAT (Index At) - Acceding a single row from a file

- iat permite acceder a un solo valor de una fila y columna especifica por indice (numero de fila y numero de columna)

In [None]:
# Acceder a la fila 300000 (index) hasta la 300003 (inclusive)
data.loc[300000:300003]

In [None]:
# Acceder a la fila 0, 5 y 10
data.loc[[0, 5, 10]]

In [None]:
# Acceder a las primeras 10 filas
data.loc[:10]

In [None]:
# Acceder desde la fila 10 hasta el final
data.loc[10:]

In [None]:
# Acceder a todas las filas solo de la columna "discipline"
data.loc[510:530, "discipline"]

In [None]:
# Acceder a las primeras 10 filas de las columnas "discipline" y "year"
data.loc[:9, ["discipline", "year"]]

In [None]:
# Acceder a las primeras 10 filas de las columnas en las posiciones 2 y 0
data.iloc[:10, [2, 0]]

In [None]:
# Filtrar filas por año mayor a 2020 mostrando solo 2 columnas
data.loc[data["year"] > 2020, ["year", "as"]]

In [None]:
# Filtrar filas por año mayor a 2018 y disciplina "Tennis" mostrando solo 2 columnas
data.loc[(data["year"] > 2018) & (data["discipline"] == "Tennis"), ["year", "discipline"]]

In [None]:
# Crear una nueva columa "age" 
data["age"] = 2026 - data["year"]
data.loc[:50, ["year", "age"]].sort_values(by="age", ascending=True)

In [None]:
# Generando un DataFrame de 10 filas ordenadas por la columna "place" en orden descendente
data_piece = data.sort_values(by=["place"], ascending=False).sample(n=10)

# Reemplazando los valores NaN en la columna "place" por 0
data_piece.loc[data_piece["place"].isna(), "place"] = 0

# Accediendo a la columna "place" del DataFrame generado
data_piece.loc[:, ["as", "place"]]
    

In [None]:
# Modificar el valor de la columna "year" en las primeras 10 filas a 2000
# Esto modifica el dataframe original
data.loc[:10, ["year"]] = 2000
data.loc[:15, ["year"]]

In [None]:
# Acceder al valor de la fila 0 y columna 0
data.iat[0, 0]

#### sort_values() - Sort DataFrame by the values of one or more columns.

- sort_values() permite ordenar un DataFrame por los valores de una o mas columnas.
- Por defecto, ordena en orden ascendente (ascending=True).
  - Se puede especificar el parametro ascending=False para ordenar en orden descendente. Se puede usar una lista de booleanos para ordenar diferentes columnas en diferentes ordenes.
  - Se puede especificar el parametro by para indicar las columnas por las que se quiere ordenar.
  - Se puede especificar el parametro inplace=True para modificar el DataFrame original en lugar de crear una copia ordenada.

In [None]:
# Ordenar el DataFrama por las columnas "year" (descendente) y "as" (ascendente) sin modificar el archivo
data_sorted = data.sort_values(by=["year", "as"], ascending=[False, True], inplace=False)
data_sorted.head(10)

#### Iterar sobre filas de un DataFrame

- No es recomendable iterar sobre las filas de un DataFrame, ya que es ineficiente y va en contra del paradigma de pandas.
- Se puede usar el metodo iterrows() para iterar sobre las filas de un DataFrame.
  - Cada fila se devuelve como una tupla que contiene el indice de la fila y una Serie con los datos de la fila.
- Se puede usar el metodo itertuples() para iterar sobre las filas de un DataFrame.
  - Cada fila se devuelve como una tupla nombrada, donde los nombres de los campos son los nombres de las columnas.


In [None]:
# Iterar sobre las primeras 15 filas de un DataFrame
for index, row in data.head(15).iterrows():
    print(f"Index: {index}, Year: {row['year']}, Discipline: {row['discipline']}")

#### DROP - Eliminar filas o columnas de un DataFrame

- drop() permite eliminar filas o columnas de un DataFrame.
  - Se puede especificar columns=[...] para eliminar columnas por nombre.
  - Se puede especificar index=[...] para eliminar filas por indice.
  - Se puede especificar el parametro axis=0 para eliminar filas (por defecto) o axis=1 para eliminar columnas.
  - Se puede especificar el parametro inplace=True para modificar el DataFrame original en lugar de crear una copia modificada.
  - Se puede especificar el parametro errors='ignore' para evitar errores si la fila o columna no existe.

In [None]:
new_data = pd.read_parquet("../data/results.parquet")
new_data.head(0)

In [None]:
# Eliminar la columna "tied" sin modificar el DataFrame original
new_data.drop(columns=["tied"], inplace=False)

In [None]:
new_data.loc[new_data["place"].isna()]

#### Copy() - Crear una copia de un DataFrame

- Pandas utiliza referencias a los datos originales para optimizar el uso de memoria.
- Para crear una copia independiente de un DataFrame, se puede usar el metodo copy().
- Esto es util cuando se quiere modificar un DataFrame sin afectar al original.


In [None]:
# Mismo espacio de memoria
new_data = data

# Eliminar la columna "year" modificando el DataFrame original
new_data.drop(columns=["year"], inplace=True)

new_data.head(10)

In [None]:
# Diferente espacio de memoria
new_data = data.copy()

# Eliminar la columna "year" sin modificar el DataFrame original
new_data.drop(columns=["year"], inplace=True)

new_data.head(10)

#### Rename - Renombrar filas o columnas de un DataFrame

- rename() permite renombrar filas o columnas de un DataFrame.
  - Se puede especificar el parametro columns={...} para renombrar columnas por nombre.
  - Se puede especificar el parametro index={...} para renombrar filas por indice.
  - Se puede especificar el parametro inplace=True para modificar el DataFrame original en lugar de crear una copia modificada.

In [None]:
# Renombramos la columna "as" a "name" y "discipline" a "sport" sin modificar el DataFrame original
new_data.rename(columns={"as": "name", "discipline": "sport"}, inplace=False)

#### to_datetime y dt - Acceder a propiedades de fechas en una columna datetime

- to_datetime() permite convertir una columna a tipo datetime.
  - format: especifica el formato de la fecha en la columna original.
  - errors: especifica como manejar errores en la conversion ('raise', 'coerce', 'ignore').
  - utc: si es True, convierte las fechas a UTC.
- dt permite acceder a propiedades de fechas en una columna datetime.
  - Se puede acceder a propiedades como year, month, day, hour, minute, second, weekday, etc.
  - Se puede usar para crear nuevas columnas basadas en propiedades de fechas.

In [155]:
bios_data = pd.read_csv("../data/bios.csv")
# bios_data.info()

In [156]:
# Convertir la columna "born_date" a tipo datetime
bios_data["born_date"] = pd.to_datetime(bios_data["born_date"])
# bios_data.info()

In [157]:
# Acceder al año
bios_data["born_year"] = bios_data["born_date"].dt.year

# Acceder al mes
bios_data["born_month"] = bios_data["born_date"].dt.month

# Acceder al día
bios_data["born_day"] = bios_data["born_date"].dt.day

bios_data.head(10)

Unnamed: 0,athlete_id,name,born_date,born_city,born_region,born_country,NOC,height_cm,weight_kg,died_date,born_year,born_month,born_day
0,1,Jean-François Blanchy,1886-12-12,Bordeaux,Gironde,FRA,France,,,1960-10-02,1886.0,12.0,12.0
1,2,Arnaud Boetsch,1969-04-01,Meulan,Yvelines,FRA,France,183.0,76.0,,1969.0,4.0,1.0
2,3,Jean Borotra,1898-08-13,Biarritz,Pyrénées-Atlantiques,FRA,France,183.0,76.0,1994-07-17,1898.0,8.0,13.0
3,4,Jacques Brugnon,1895-05-11,Paris VIIIe,Paris,FRA,France,168.0,64.0,1978-03-20,1895.0,5.0,11.0
4,5,Albert Canet,1878-04-17,Wandsworth,England,GBR,France,,,1930-07-25,1878.0,4.0,17.0
5,6,Nicolas Chatelain,1970-01-13,Amiens,Somme,FRA,France,181.0,70.0,,1970.0,1.0,13.0
6,7,Patrick Chila,1969-11-27,Ris-Orangis,Essonne,FRA,France,180.0,73.0,,1969.0,11.0,27.0
7,8,Henri Cochet,1901-12-14,Villeurbanne,Rhône,FRA,France,,,1987-04-02,1901.0,12.0,14.0
8,9,Marcel Cousin,1896-08-04,Nîmes,Gard,FRA,France,,,1986-08-01,1896.0,8.0,4.0
9,10,Guy de la Chapelle,1868-07-16,Farges-Allichamps,Cher,FRA,France,,,1923-08-27,1868.0,7.0,16.0
