# Manipulación Basica de nuestro DataFrame
------------------------

En esta sección aprenderemos a manipular nuestro dataframe con el fin de poder crear automatizaciones sobre nuestros datos


In [None]:
# Para esta seccion iniciaremos cargando nuestra data

import pandas as pd

df = pd.read_csv('./src/winemag-data-130k-v2.csv')
df.head()

In [None]:
df.shape

## 1. Manipulación Basica de nuestro DataFrame

### 1.1 Seleccion de Columnas

In [None]:
df.columns

In [None]:
# Seleccion de una columna
df['country'].head()


In [None]:
# tambien es posible la seleccion de este modo
df.country.head()

In [None]:
df.description.head()

In [None]:
# Selección de múltiples columnas

# emplearemos una lista
columns_select = ['country','province']
df_subset = df[columns_select]
df_subset.head()

In [None]:
# renombrado de columnas

# {'old_colname': 'new_colname'}
df_rename = df.rename(columns={'Unnamed: 0': 'index'})
df_rename.head(2)

In [None]:
# Eliminando columna
df_drop= df_rename.drop(['index'], axis=1)

df_drop.head(2)

### 1.2 Aplicando Filtros

Podemos filtrar un dataframe mediante condiciones booleanas sobre columnas


In [None]:
# condicion -> se encarga de establecer la condicion de Verdad o Falsedad 
condicion = df['country'] == 'Italy'
condicion.head() 

In [None]:
# usando la condicion como filtro
df_filter = df_drop[condicion]
df_filter.head(2)

In [None]:
df_filter.shape

In [None]:
# método unique me brinda valores únicos de columna
df.country.unique()

In [None]:
# obtenemos valores unicos de 2 o más columnas
df_unicos_country_province = df[['country', 'province']].drop_duplicates()

df_unicos_country_province.shape

podemos concatenar varias condiciones usando `&` para **AND** ,  `|` para **OR** y `~` como **NOT** o negacion.

Tambien debemos recordar los operadores: `==` , `!=` , `>`, `<` , `>=` , `<=`

In [None]:
condicion  = (df.country=="Italy") & (df.points>=90)
df_drop[condicion].head()

In [None]:
# valores únicos de columnas
# el unique solo devuelve valores únicos de una columna, para más de una columna se emplea el drop_duplicates
df_var = df[['winery','variety']].drop_duplicates(subset=['winery','variety'])
df_var

Para ver más formas de filtrado [ver](https://towardsdatascience.com/filtering-data-frames-in-pandas-b570b1f834b9)

### 1.3 Aplicación de lógicas a nuestros DataFrame

Podemos aplicar lógicas o añadir constantes a nuestros dataFrames.


In [None]:
df_drop.head(2)

In [None]:
# se pueden realizar operaciones básicas a columnas aplicando lógicas
# Generacion de constantes

# df [nueva_columna] = valor
df_drop['ajuste_precio'] = 1.2
df_drop.head()

In [None]:
# Operaciones como suma , resta, multiplicacion de columnas son validas
df_drop['new_price'] = df_drop.price * df_drop.ajuste_precio
df_drop.head(6)

podemos usar `apply` en una columna para obtener una nueva columna en función de sus valores

In [None]:
# df_rename.price.unique()

# Según el precio de la botella de vino aplicar una etiqueta
# Si precio <100 -> Precio accesible
# SI precio >=100 and precio <=500 -> 'vino es moderadamente costoso'
# Si precio >500 -> 'muy caro'

def etiqueta_precio(precio:float):

    if precio<100:
        return 'Precio accesible'
    elif precio <=500 and precio >=100:
        return 'Precio moderadamente alto'
    elif precio >500:
        return 'Precio muy caro'
    else:
        return None

etiqueta_precio(1500)


In [None]:
df_drop.describe()

In [None]:
df_drop['etiqueta_costo'] = df_drop.price.apply(etiqueta_precio)

df_drop.head()

In [None]:
# aplicando lógicas mediante funciones

def incremento_precio_por_pais(row):
    if row.country == 'Italy':
        return row.price *1.5
    elif row.country == 'Peru':
        return row['price'] *1.025
    else:
        return row.price


df_drop['price_by_country'] = df_drop.apply(incremento_precio_por_pais, axis='columns')

In [None]:
df_drop[['country', 'price', 'price_by_country']].drop_duplicates().head(25)

In [None]:
df_drop[df_drop.country=='Peru'][['country', 'price', 'price_by_country']].drop_duplicates().head(25)

In [None]:
df_drop.head(1)

In [None]:
df_drop.to_excel('./output/wine_review.xlsx', index=False, sheet_name='ReporteVinos')

In [None]:
df_drop['rendimiento']= (df_drop['new_price'] - df_drop.price)/df_drop.price

subset = ['country','price','new_price','rendimiento']
df_drop[subset].head()

https://www.kaggle.com/code/residentmario/indexing-selecting-assigning


https://www.kaggle.com/code/residentmario/summary-functions-and-maps

In [None]:
import pandas as pd

# Crear un DataFrame de ejemplo
data = {
    'periodo': ['2023Q1', '2023Q2', '2023Q3', '2023Q4', '2024Q1', '2023Q1', '2023Q2', '2023Q3', '2023Q4', '2024Q1'],
    'producto': ['A', 'A', 'A', 'A', 'A', 'B', 'B', 'B', 'B', 'B'],
    'precio': [100, 105, 110, 115, 120, 200, 195, 190, 185, 180]
}
df = pd.DataFrame(data)

df

In [None]:
# Asegurarse de que los datos estén ordenados por 'producto' y 'periodo'
df = df.sort_values(by=['producto', 'periodo'])

# Crear la nueva columna 'precio_periodo_t-1' particionando por 'producto'
df['precio_periodo_t-1'] = df.groupby('producto')['precio'].shift(1)

# Mostrar el DataFrame resultante
df


# Ejercicios
---------------------------------------------

In [None]:
# Me solicitan generar un archivo excel por cada uno de los paises en el archivo 'wine_review'
