# **EJERCICIOS MANIPULACIÓN DE DATOS CON PANDAS II**

### **Introducción**
En esta ocasión, trabajaremos con datos sobre las tiendas Walmart, que es una cadena de grandes almacenes en Estados Unidos. El conjunto de datos contiene las ventas semanales en dólares estadounidenses en varias tiendas. Cada tienda tiene un número de identificación y un tipo de tienda específico. Las ventas también están separadas por ID de departamento. Junto con las ventas semanales, hay información sobre si fue una semana de vacaciones o no, la temperatura media durante la semana en ese lugar, el precio medio del combustible en dólares por litro esa semana y la tasa de desempleo nacional esa semana. 

## **Ejercicio 1**
1. Explora el nuevo DataFrame (`data/wallmart_sales.csv`) primero imprimiendo las primeras filas del DataFrame de `sales`.
2. Imprime la información de las columnas de `sales`.
3. Imprime la media de la columna `weekly_sales`.
4. Imprime la mediana de la columna `weekly_sales`.

In [2]:
# Solución ejercicio 1
import numpy as np
import pandas as pd
df = pd.read_csv("wallmart_sales.csv", index_col = 0)
df.head()



Unnamed: 0,store,type,department,date,weekly_sales,is_holiday,temperature_c,fuel_price_usd_per_l,unemployment
0,1,A,1,2010-02-05,24924.5,False,5.727778,0.679451,8.106
1,1,A,1,2010-03-05,21827.9,False,8.055556,0.693452,8.106
2,1,A,1,2010-04-02,57258.43,False,16.816667,0.718284,7.808
3,1,A,1,2010-05-07,17413.94,False,22.527778,0.748928,7.808
4,1,A,1,2010-06-04,17558.09,False,27.05,0.714586,7.808


In [3]:
df["weekly_sales"].mean()

23843.950148505668

In [4]:
df["weekly_sales"].median()

12049.064999999999

## **Ejercicio 2**
Las estadísticas también pueden calcularse sobre columnas de fecha que tengan valores con el tipo de datos `datetime64`. Algunas de estas estadísticas -como la media- no tienen mucho sentido en las fechas, pero otras son muy útiles, por ejemplo, el mínimo y el máximo, que permiten ver qué rango de tiempo cubren los datos.

1. Imprime el máximo de la columna `date`.
2. Imprime el mínimo de la columna `date`.

In [5]:
# Solución ejercicio 2
print (df["date"].max())
print (df["date"].min())


2012-10-26
2010-02-05


## **Ejercicio 3**
La función proporcionada para este ejercicio, "IQR" es la abreviatura de rango intercuartil, que es el percentil 75 menos el percentil 25. Es una alternativa a la desviación estándar que resulta útil si sus datos contienen valores atípicos.

1. Utiliza la función personalizada `iqr` definida junto con `.agg()` para imprimir el IQR de la columna `temperature_c` de `sales`.
2. Actualiza la selección de columnas para utilizar la función `iqr` con `.agg()` para imprimir el IQR de `temperature_c`, `fuel_price_usd_per_l` y `unemployment`, en ese orden.
3. Actualiza las funciones de agregación llamadas por `.agg()`: incluye `iqr` y `np.median` en ese orden.

In [6]:
def iqr(column):
    return column.quantile(0.75) - column.quantile(0.25)
print (df["temperature_c"].agg(iqr))
# Solución a ejercicio 3
print(df[["temperature_c", "fuel_price_usd_per_l", "unemployment"]].agg(iqr))
df[["temperature_c", "fuel_price_usd_per_l", "unemployment"]].agg([iqr, np.median])

16.583333333333336
temperature_c           16.583333
fuel_price_usd_per_l     0.073176
unemployment             0.565000
dtype: float64


Unnamed: 0,temperature_c,fuel_price_usd_per_l,unemployment
iqr,16.583333,0.073176,0.565
median,16.966667,0.743381,8.099


## **Ejercicio 4**
1. Crea un DataFrame llamado `sales_1_1` que contenga los datos de ventas para el departamento 1 de la tienda. 
2. Ordena las filas de `sales_1_1` por la columna de `date` en orden ascendente.
3. Obtén la suma acumulada de las `weekly_sales` y añádela como una nueva columna de `sales_1_1` llamada `cum_weekly_sales`.
4. Obtén el máximo acumulado de `weekly_sales`, y añádelo como una columna llamada `cum_max_sales`.
5. Imprime las columnas `date`, `weekly_sales`, `cum_weekly_sales` y `cum_max_sales`.

In [7]:
# Solución al ejercicio 4
sales_1_1 = df.query("store == 1 & department == 1").copy() #SI NO PONEMOS .copy() EL QUERY TE DEVUELVE UNA VISTA Y NO SE PUEDE TRABAJAR Y AL HACER .copy() HACES UN DATAFRAME INDEPENDIENTE
print(sales_1_1)
sales_1_1.sort_values ("date", ascending = True, inplace = True)
sales_1_1["cum_weekly_sales"] = sales_1_1["weekly_sales"].cumsum()
sales_1_1["cum_max_sales"] = sales_1_1["weekly_sales"].cummax()


print(sales_1_1[["date", "weekly_sales", "cum_weekly_sales", "cum_max_sales"]])

    store type  department        date  weekly_sales  is_holiday  \
0       1    A           1  2010-02-05      24924.50       False   
1       1    A           1  2010-03-05      21827.90       False   
2       1    A           1  2010-04-02      57258.43       False   
3       1    A           1  2010-05-07      17413.94       False   
4       1    A           1  2010-06-04      17558.09       False   
5       1    A           1  2010-07-02      16333.14       False   
6       1    A           1  2010-08-06      17508.41       False   
7       1    A           1  2010-09-03      16241.78       False   
8       1    A           1  2010-10-01      20094.19       False   
9       1    A           1  2010-11-05      34238.88       False   
10      1    A           1  2010-12-03      22517.56       False   
11      1    A           1  2011-01-07      15984.24       False   

    temperature_c  fuel_price_usd_per_l  unemployment  
0        5.727778              0.679451         8.106  
1  

## **Ejercicio 5**
1. Elimina las filas de `sales` con pares duplicados de `store` y `type` y guardalo como `store_types` e imprime las primeras filas.
2. Elimina las filas de `sales` con pares duplicados de `store` y `deparment` y guárdalas como `store_depts` e imprime las primeras filas.
3. Subconjunta las filas que son semanas de vacaciones utilizando la columna `is_holiday`, y elimina las fechas duplicadas, guardándolas como `holiday_dates`.
4. Selecciona la columna `date` de `holiday_dates`, e imprímela.

In [8]:
# Solución ejercicio 5
store_types = df.drop_duplicates(subset = ["store", "type"])
print(store_types.head())

store_depts = df.drop_duplicates(subset=["store", "department"])
print(store_depts.head())

holiday_dates = df[df["is_holiday"]].drop_duplicates("date") #df[df[is_holiday] == True].drop_duplicates("date") MISMO RESULTADO
print (holiday_dates)
print(holiday_dates["date"])

      store type  department        date  weekly_sales  is_holiday  \
0         1    A           1  2010-02-05      24924.50       False   
901       2    A           1  2010-02-05      35034.06       False   
1798      4    A           1  2010-02-05      38724.42       False   
2699      6    A           1  2010-02-05      25619.00       False   
3593     10    B           1  2010-02-05      40212.84       False   

      temperature_c  fuel_price_usd_per_l  unemployment  
0          5.727778              0.679451         8.106  
901        4.550000              0.679451         8.324  
1798       6.533333              0.686319         8.623  
2699       4.683333              0.679451         7.259  
3593      12.411111              0.782478         9.765  
    store type  department        date  weekly_sales  is_holiday  \
0       1    A           1  2010-02-05      24924.50       False   
12      1    A           2  2010-02-05      50605.27       False   
24      1    A           3 

## **Ejercicio 6**
Partiendo de los dataframes ``y `` creados en el ejercicio anterior, hacer lo siguiente:

1. Contar el número de tiendas de cada tipo de tienda en `store_types`.
2. Contar la proporción de tiendas de cada tipo de tienda en `store_types`.
3. Contar el número de departamentos diferentes en `store_depts`, ordenando las cuentas en orden descendente.
4. Contar la proporción de los diferentes departamentos en `store_depts`, clasificando las proporciones en orden descendente.

In [9]:
# Solución ejercicio 6
store_counts = store_types["type"].value_counts()
print(store_counts)

store_props = store_types["type"].value_counts(normalize = True)
print(store_props)

dept_counts_sorted = store_depts["department"].value_counts().sort_values(ascending = False)
print(dept_counts_sorted)

dept_props_sorted = store_depts.department.value_counts(sort=False, normalize=True) * 100 #SE PUEDE .department O store_depts["deparment"] SIEMPRE Y CUANDO, A LA HORA D EUTILIZAR EL PUNTO, LA COLUMNA A LA QUE QUIERES LLAMAR NO PUEDE CONTENER ESPACIOS
print(dept_props_sorted)

A    11
B     1
Name: type, dtype: int64
A    0.916667
B    0.083333
Name: type, dtype: float64
1     12
3     12
5     12
6     12
7     12
      ..
37    10
48     8
50     6
39     4
43     2
Name: department, Length: 80, dtype: int64
1     1.291712
2     1.291712
3     1.291712
4     1.291712
5     1.291712
        ...   
98    1.291712
99    1.184069
39    0.430571
50    0.645856
43    0.215285
Name: department, Length: 80, dtype: float64


## **Ejercicio 7**
1. Calcula el total de `weekly_sales` en todo el conjunto de datos.
2. Subconjunta las tiendas de tipo "A" y calcula sus ventas semanales totales.
3. Haz lo mismo para las tiendas de tipo "B" y de tipo "C".
4. Combina los resultados de A, B y C en una lista, y divídela por el total de ventas (`sales_all`) para obtener la proporción de ventas por tipo.

In [10]:
# Solución ejercicio 7
sales_all = df["weekly_sales"].sum()

sales_A = df[df["type"] == "A"]["weekly_sales"].sum()
#METODO 2
# sales_A2 = df.groupby("type").get_group("A")["weekly_sales"].sum()   ##get_group() ES LA CLAVE AQUI DEL FILTRO
#METODO 3
#CON QUERY-----sales_3= df.query("type == 'A'").sum()   ### DOBLES FUERA SIMPLES DENTRO. LAS COMILLAS

sales_B = df[df["type"] == "B"]["weekly_sales"].sum()

sales_C = df[df["type"] == "C"]["weekly_sales"].sum()

sales_propn_by_type = [sales_A , sales_B, sales_C] /sales_all
print(sales_propn_by_type)

[0.9097747 0.0902253 0.       ]


## **Ejercicio 8**
1. Agrupa las ventas por tipo (`type`), toma la suma de las ventas semanales (`weekly_sales`), y almacénalas como `sales_by_type`.
2. Calcula la proporción de ventas en cada tipo de tienda dividiendo por la suma de `sales_by_type`. Asigna el resultado a `sales_propn_by_type`.

In [11]:
# Solución ejercicio 8
sales_by_type = df.groupby("type")["weekly_sales"].sum()
print (sales_by_type)
sales_propn_by_type = sales_propn_by_type / sum(sales_by_type)
print(sales_propn_by_type)

type
A    2.337163e+08
B    2.317840e+07
Name: weekly_sales, dtype: float64
[3.54143013e-09 3.51215095e-10 0.00000000e+00]


### **Ejercicio 9**
1. Importa `numpy` con el alias `np`.
2. Obtén el mínimo, el máximo, la media y la mediana de `weekly_sales` para cada tipo de tienda utilizando `.groupby()` y `.agg()`. Guarda esto como `sales_stats`. Asegúrate de utilizar las funciones `numpy`.
3. Obtén el mínimo, el máximo, la media y la mediana de `unemployment` y `fuel_price_usd_per_l` para cada tipo de tienda. Guarda esto como `unemp_fuel_stats`.


In [12]:
# Solución ejercicio 9
import numpy as np

sales_stats = df.groupby("type")["weekly_sales"].agg([max,min,np.mean,np.median])

print(sales_stats)

unemp_fuel_stats = df.groupby("type")[["unemployment", "fuel_price_usd_per_l"]].agg([min, max, np.mean, np.median])

print(unemp_fuel_stats)

            max     min          mean    median
type                                           
A     293966.05 -1098.0  23674.667242  11943.92
B     232558.51  -798.0  25696.678370  13336.08
     unemployment                         fuel_price_usd_per_l            \
              min    max      mean median                  min       max   
type                                                                       
A           3.879  8.992  7.972611  8.067             0.664129  1.107410   
B           7.170  9.765  9.279323  9.199             0.760023  1.107674   

                          
          mean    median  
type                      
A     0.744619  0.735455  
B     0.805858  0.803348  


### **Ejercicio 10**
En este ejercicio, realizarás cálculos utilizando `.pivot_table()` para replicar los cálculos que realizaste en la última lección utilizando `.groupby()`.

1. Obtener la media de las ventas semanales por tipo utilizando `.pivot_table()` y almacenar como `mean_sales_by_type`.
2. Obtener la media y la mediana (usando funciones NumPy) de `weekly_sales` por tipo usando `.pivot_table()` y almacenar el resultado como `mean_med_sales_by_type`.
3. Obtener la media de `weekly_sales` por `type` y `is_holiday` utilizando `.pivot_table()` y almacenar como `mean_sales_by_type_holiday`.

In [21]:
# Solución ejercicio 10
mean_sales_by_type = df.pivot_table(values = "weekly_sales", index = "type", aggfunc= np.mean)
print(mean_sales_by_type)

mean_med_sales_by_type = df.pivot_table(values = "weekly_sales", index = "type", aggfunc = [np.median, np.mean])
print(mean_med_sales_by_type)

mean_sales_by_type_holiday = df.pivot_table(values = "weekly_sales", index = ["type", "is_holiday"], aggfunc = np.mean)
print(mean_sales_by_type_holiday)

      weekly_sales
type              
A     23674.667242
B     25696.678370
           median          mean
     weekly_sales  weekly_sales
type                           
A        11943.92  23674.667242
B        13336.08  25696.678370
                 weekly_sales
type is_holiday              
A    False       23768.583523
     True          590.045250
B    False       25751.980533
     True          810.705000


### **Ejercicio 11**
1. Imprime la media de las ventas semanales por departamento y tipo, rellenando los valores que faltan con 0.
2. Imprime la media de las ventas semanales por departamento y tipo, rellenando los valores que faltan con 0 y sumando todas las filas y columnas.

In [22]:
# Solución al ejercicio 11
mean= df.pivot_table(values = "weekly_sales", index = ["type", "department"], aggfunc= np.mean, fill_value = 0)
print(mean)

                 weekly_sales
type department              
A    1           30961.725379
     2           67600.158788
     3           17160.002955
     4           44285.399091
     5           34821.011364
...                       ...
B    94            161.445833
     95          77082.102500
     96           9528.538333
     97           5828.873333
     98            217.428333

[157 rows x 1 columns]


In [23]:
mean2 = df.pivot_table(values = "weekly_sales", index = ["type", "department"], aggfunc = [np.mean, np.sum], fill_value = 0)
print (mean2)

                         mean          sum
                 weekly_sales weekly_sales
type department                           
A    1           30961.725379   4086947.75
     2           67600.158788   8923220.96
     3           17160.002955   2265120.39
     4           44285.399091   5845672.68
     5           34821.011364   4596373.50
...                       ...          ...
B    94            161.445833      1937.35
     95          77082.102500    924985.23
     96           9528.538333    114342.46
     97           5828.873333     69946.48
     98            217.428333      2609.14

[157 rows x 2 columns]
