# <span style='color:black'> <center>Manejo de datos con Pandas</center> </span>
## 2. Análisis estadístico y agrupación
<p><img src="https://online.york.ac.uk/wp-content/uploads/2021/07/man-in-a-suit-standing-behind-a-hologram-of-data-analytics-1030x579.jpg" width="750"</p>

## Funciones estadísticas
<p>A través de la estadística tenemos disponible una serie de medidas cuantitativas que nos permiten visualizar el comportamiento de una variable. Como ejemplo tenemos la media, mediana, mínimo, máxima y desviación estándar son estadísticas de resumen. El cálculo de estas nos permite tener una mejor comprensión y entendimiento de nuestro conjunto de datos, incluso si es muy grande.</p>

In [2]:
# Importar pandas y numpy

import pandas as pd
import numpy as np

In [3]:
# Importar el archivo csv sales a un DataFrame

df = pd.read_csv('sales.csv')
df

Unnamed: 0,store,type,department,date,weekly_sales,is_holiday,temperature_c,fuel_price_usd_per_l,unemployment
0,1,A,1,05/02/2018,24924.50,False,5.727778,0.679451,8.106
1,1,C,1,05/03/2018,21827.90,False,8.055556,0.693452,8.106
2,1,A,1,02/04/2018,57258.43,False,16.816667,0.718284,7.808
3,1,A,1,07/05/2018,17413.94,False,22.527778,0.748928,7.808
4,1,A,1,04/06/2018,17558.09,False,27.050000,0.714586,7.808
...,...,...,...,...,...,...,...,...,...
10769,39,C,99,09/12/2019,895.00,False,9.644444,0.834256,7.716
10770,39,A,99,03/02/2020,350.00,False,15.938889,0.887619,7.244
10771,39,A,99,08/06/2020,450.00,False,27.288889,0.911922,6.989
10772,39,A,99,13/07/2020,0.06,False,25.644444,0.860145,6.623


In [4]:
# Imprimir las primeras 5 lineas de mi DataFrame

df.head(5)

Unnamed: 0,store,type,department,date,weekly_sales,is_holiday,temperature_c,fuel_price_usd_per_l,unemployment
0,1,A,1,05/02/2018,24924.5,False,5.727778,0.679451,8.106
1,1,C,1,05/03/2018,21827.9,False,8.055556,0.693452,8.106
2,1,A,1,02/04/2018,57258.43,False,16.816667,0.718284,7.808
3,1,A,1,07/05/2018,17413.94,False,22.527778,0.748928,7.808
4,1,A,1,04/06/2018,17558.09,False,27.05,0.714586,7.808


In [5]:
# Imprimr la informacion de los campos de mi DataFrame

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10774 entries, 0 to 10773
Data columns (total 9 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   store                 10774 non-null  int64  
 1   type                  10774 non-null  object 
 2   department            10774 non-null  int64  
 3   date                  10774 non-null  object 
 4   weekly_sales          10774 non-null  float64
 5   is_holiday            10774 non-null  bool   
 6   temperature_c         10774 non-null  float64
 7   fuel_price_usd_per_l  10774 non-null  float64
 8   unemployment          10774 non-null  float64
dtypes: bool(1), float64(4), int64(2), object(2)
memory usage: 684.0+ KB


In [6]:
# Calcular el promedio de las venta semanales

df['weekly_sales'].mean()

23843.95014850566

In [7]:
# Calcular la mediana de las ventas semanales

print(df['weekly_sales'].median())

# otra opcion
print(np.median(df['weekly_sales']))

12049.064999999999
12049.064999999999


In [8]:
#Cambiamos a formato de fecha

df['date'] = pd.to_datetime(df['date'], dayfirst=True) # porque el primer dato es el dia (ver arriba en el df)

# Otra forma
df['date'] = pd.to_datetime(df['date'], format='d%/m%/y%')


In [9]:
# Calcular la última fecha de venta 

df['date'].max()

Timestamp('2020-10-26 00:00:00')

In [10]:
# Calcular la fecha en la que tuve mi primer venta

df['date'].min()

Timestamp('2018-02-05 00:00:00')

In [11]:
# notar como el formato de 'date' ya cambio

#was: object 
#is: datetime64[ns]

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10774 entries, 0 to 10773
Data columns (total 9 columns):
 #   Column                Non-Null Count  Dtype         
---  ------                --------------  -----         
 0   store                 10774 non-null  int64         
 1   type                  10774 non-null  object        
 2   department            10774 non-null  int64         
 3   date                  10774 non-null  datetime64[ns]
 4   weekly_sales          10774 non-null  float64       
 5   is_holiday            10774 non-null  bool          
 6   temperature_c         10774 non-null  float64       
 7   fuel_price_usd_per_l  10774 non-null  float64       
 8   unemployment          10774 non-null  float64       
dtypes: bool(1), datetime64[ns](1), float64(4), int64(2), object(1)
memory usage: 684.0+ KB


## Multiples funciones
<p>El método <code>.agg()</code> nos permite aplicar nuestras propias funciones personalizadas a un DataFrame, así como también aplicar funciones a más de una columna a la vez, lo que hace que los cálculos sean súper eficientes. Lo anterior se hace usando la siguiente nomenclatura: <code>df['columna'].agg([funcion1, funcion2])</code>
    
En la función personalizada para este ejercicio, <code>IQR</code> nos muestra el rango intercuartil, que es el percentil 75 menos el percentil 25. Es una alternativa a la desviación estándar que resulta útil si sus datos contienen valores atípicos.</p>
<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/1/1a/Boxplot_vs_PDF.svg/1200px-Boxplot_vs_PDF.svg.png" width="450">

In [12]:
# Funcion IQR

def iqr(columna):
    calculo = columna.quantile(0.75) - columna.quantile(0.25)
    return calculo

# Calcular el IQR de la columna 'temperature_c' 

# una opcion:
# es aplicar funciones individualmente
print(iqr(df['temperature_c']))
print(np.mean(df['temperature_c']))

# otra opcion:
# Usando .agg() para usar mas de una funcion al mismo tiempo
df['temperature_c'].agg([iqr, np.mean])


16.583333337000003
15.731978219306573


  df['temperature_c'].agg([iqr, np.mean])


iqr     16.583333
mean    15.731978
Name: temperature_c, dtype: float64

In [13]:
# Calcula el IQR para 'temperature_c', 'fuel_price_usd_per_l', y 'unemployment'

df[['temperature_c', 'fuel_price_usd_per_l', 'unemployment']].agg(iqr)

temperature_c           16.583333
fuel_price_usd_per_l     0.073176
unemployment             0.565000
dtype: float64

aplicar mas de una funcion a mas de una columna

In [14]:
# Agrega el promedio al cálculo anterior

df[['temperature_c', 'fuel_price_usd_per_l', 'unemployment']].agg([iqr, np.mean])

  df[['temperature_c', 'fuel_price_usd_per_l', 'unemployment']].agg([iqr, np.mean])
  df[['temperature_c', 'fuel_price_usd_per_l', 'unemployment']].agg([iqr, np.mean])
  df[['temperature_c', 'fuel_price_usd_per_l', 'unemployment']].agg([iqr, np.mean])


Unnamed: 0,temperature_c,fuel_price_usd_per_l,unemployment
iqr,16.583333,0.073176,0.565
mean,15.731978,0.749746,8.082009


In [15]:
# Crea un nuevo DataFrame que contenga las ventas de la tienda 1 y el departamento 1

sales_1_1 = df[(df['store'] == 1) & (df['department'] == 1)]
sales_1_1

Unnamed: 0,store,type,department,date,weekly_sales,is_holiday,temperature_c,fuel_price_usd_per_l,unemployment
0,1,A,1,2018-02-05,24924.5,False,5.727778,0.679451,8.106
1,1,C,1,2018-03-05,21827.9,False,8.055556,0.693452,8.106
2,1,A,1,2018-04-02,57258.43,False,16.816667,0.718284,7.808
3,1,A,1,2018-05-07,17413.94,False,22.527778,0.748928,7.808
4,1,A,1,2018-06-04,17558.09,False,27.05,0.714586,7.808
5,1,A,1,2018-07-02,16333.14,False,27.172222,0.705076,7.787
6,1,A,1,2018-08-06,17508.41,False,30.644444,0.69398,7.787
7,1,C,1,2018-09-03,16241.78,False,27.338889,0.680772,7.787
8,1,A,1,2018-10-01,20094.19,False,22.161111,0.68764,7.838
9,1,A,1,2018-11-05,34238.88,False,14.855556,0.710359,7.838


In [16]:
# Ordena por fecha

sales_1_1 = sales_1_1.sort_values('date')

# Crea un nuevo campo calculando la venta acumulada semanal

sales_1_1['cum_weekly_sales'] = sales_1_1['weekly_sales'].cumsum()

# Crea un nuevo campo campo calculado con la venta acumulada máxima

sales_1_1['cum_max_sales'] = sales_1_1['weekly_sales'].cummax()

# Vamos a ver los campos que acabas de crear
sales_1_1[['date', 'weekly_sales', 'cum_weekly_sales', 'cum_max_sales']]

Unnamed: 0,date,weekly_sales,cum_weekly_sales,cum_max_sales
0,2018-02-05,24924.5,24924.5,24924.5
1,2018-03-05,21827.9,46752.4,24924.5
2,2018-04-02,57258.43,104010.83,57258.43
3,2018-05-07,17413.94,121424.77,57258.43
4,2018-06-04,17558.09,138982.86,57258.43
5,2018-07-02,16333.14,155316.0,57258.43
6,2018-08-06,17508.41,172824.41,57258.43
7,2018-09-03,16241.78,189066.19,57258.43
8,2018-10-01,20094.19,209160.38,57258.43
9,2018-11-05,34238.88,243399.26,57258.43


## Eliminando duplicados de un DataFrame
<p>Eliminar duplicados es una habilidad esencial para obtener análisis precisos porque, a menudo, no deseamos tener valores repetidos dentro de nuestros cálculos.</p>

In [17]:
# Elimina los duplicados de las combinaciones store/type

store_types = df.drop_duplicates(['store', 'type'])

# Resultado
store_types

Unnamed: 0,store,type,department,date,weekly_sales,is_holiday,temperature_c,fuel_price_usd_per_l,unemployment
0,1,A,1,2018-02-05,24924.5,False,5.727778,0.679451,8.106
1,1,C,1,2018-03-05,21827.9,False,8.055556,0.693452,8.106
901,2,A,1,2018-02-05,35034.06,False,4.55,0.679451,8.324
914,2,C,2,2018-03-05,68428.64,False,8.427778,0.693452,8.324
1798,4,A,1,2018-02-05,38724.42,False,6.533333,0.686319,8.623
2681,4,C,98,2018-07-02,13089.72,False,23.144444,0.704811,7.372
2699,6,A,1,2018-02-05,25619.0,False,4.683333,0.679451,7.259
2886,6,C,17,2018-09-03,16640.2,False,27.861111,0.680772,6.973
3593,10,B,1,2018-02-05,40212.84,False,12.411111,0.782478,9.765
4495,13,A,1,2018-02-05,46761.9,False,-0.261111,0.704283,8.316


In [18]:
# Elimina los duplicados de las combinaciones store/department y ordena por venta semanal

store_deps = df.drop_duplicates(['store', 'department']).sort_values('weekly_sales')

# Resultado
store_deps

Unnamed: 0,store,type,department,date,weekly_sales,is_holiday,temperature_c,fuel_price_usd_per_l,unemployment
6806,19,A,47,2018-06-04,-70.00,False,20.488889,0.794102,8.185
3215,6,A,47,2018-02-05,-59.00,False,4.683333,0.679451,7.259
7900,20,A,77,2019-04-15,-29.97,False,12.777778,1.009402,7.287
9691,31,A,78,2018-02-05,-12.00,False,3.916667,0.679451,8.324
10103,39,A,19,2018-05-14,-11.00,False,25.272222,0.753947,8.464
...,...,...,...,...,...,...,...,...,...
1703,2,A,92,2018-02-05,178982.89,False,4.550000,0.679451,8.324
8017,20,A,92,2018-02-05,195223.84,False,-3.377778,0.735455,8.187
6237,14,A,95,2018-02-05,213042.66,False,-2.605556,0.735455,8.992
4271,10,B,72,2018-02-05,232558.51,False,12.411111,0.782478,9.765


In [19]:
# Filtra las filas en donde las ventas hayan sido en días festivos ('is_holiday') y borra los duplicados de las fechas

holiday_dates = df[df['is_holiday'] == True].drop_duplicates('date')

# Resultado
holiday_dates

Unnamed: 0,store,type,department,date,weekly_sales,is_holiday,temperature_c,fuel_price_usd_per_l,unemployment
498,1,A,45,2018-09-10,11.47,True,25.938889,0.677602,7.787
691,1,A,77,2019-11-25,1431.0,True,15.633333,0.854861,7.866
2315,4,A,47,2018-02-12,498.0,True,-1.755556,0.679715,8.623
6735,19,A,39,2020-09-07,13.41,True,22.333333,1.076766,8.193
6810,19,A,47,2018-12-31,-449.0,True,-1.861111,0.881278,8.067
6815,19,A,47,2020-02-10,15.0,True,0.338889,1.010723,7.943
6820,19,A,48,2019-09-09,197.0,True,20.155556,1.038197,7.806


## Conteo y proporción
<p>Contar es una excelente manera de obtener una descripción general de nuestro conjunto datos y poder analizar sobre todo nuestras categorías top o en su defecto las que menor proporción tienen con respecto una variable</p>

In [20]:
# Contar el número de registros por cada tipo de tiendas (A, B y C)

df['type'].value_counts()


type
A    9766
B     902
C     106
Name: count, dtype: int64

In [21]:
# Dar la proporcion del cálculo anterior

df['type'].value_counts(normalize=True) * 100


# salen valores similares a los de la linea 90 abajo haciendo las ponderaciones manualmente

# Ojo, aqui la ponderacion es por el numero de ventas por tienda sin considerar el importe de las ventas. Solo cantidades de ventas.

type
A    90.644143
B     8.372007
C     0.983850
Name: proportion, dtype: float64

In [22]:
# Contar por tienda y ordenar el resultado

df['store'].value_counts(sort=True) # si es True ordena de acuerdo al Conteo. Si es false ordena de acuerdo a 'store'

store
13    913
20    910
19    906
10    902
1     901
4     901
27    900
2     897
6     894
31    890
14    885
39    875
Name: count, dtype: int64

In [23]:
# Dar la proporción ordenada del cálculo anterior

df['store'].value_counts(normalize=True, sort=True) * 100   # *100 para ver ne porcentaje

store
13    8.474104
20    8.446260
19    8.409133
10    8.372007
1     8.362725
4     8.362725
27    8.353443
2     8.325599
6     8.297754
31    8.260627
14    8.214219
39    8.121403
Name: proportion, dtype: float64

## Porcentaje de ventas
<p>Walmart distingue tres tipos de tiendas: "supercenters", "discount stores" y "neighborhood markets", codificados en este conjunto de datos como tipo "A", "B" y "C". En este ejercicio, vamos a calcular las ventas totales realizadas en cada tipo de tienda, sin utilizar <code>.groupby()</code>.</p>

In [24]:
# Calcular el total de ventas semanales

sales_all = df['weekly_sales'].sum()

# Calcular las ventas semanales para supercenters

sales_A = df[df['type'] == 'A']['weekly_sales'].sum()

# Calcular las ventas semanales para discount stores

sales_B = df[df['type'] == 'B']['weekly_sales'].sum()

# Calcular las ventas semanales para neighborhood markets

sales_C = df[df['type'] == 'C']['weekly_sales'].sum()

# Calcular la proporción de venta por tipo de tienda

print(sales_A / sales_all * 100)
print(sales_B / sales_all * 100)
print(sales_C / sales_all * 100)

# salen valores similares a los de la linea 87 arriba usando el metodo value_counts(normalize=true)
# aqui la poderacion es con base en el valor monetario de las ventas, no solo con cantidades de ventas por tienda

89.97383152511354
9.022530314849538
1.0036381600369286


## Group by
<p> Podemos ahorrarnos mucho código usando el método <code>.groupby</code> como veremos a continuación</p>

In [25]:
# Calcular las ventas por tipo de tienda usando .groupby()

sales_by_type = df.groupby('type')['weekly_sales'].sum()

# Calcular la proporción

sales_by_type = sales_by_type / sales_all

# Resultado

sales_by_type * 100

type
A    89.973832
B     9.022530
C     1.003638
Name: weekly_sales, dtype: float64

In [26]:
# Para cada tipo de tienda calcular la venta mínima, máxima, el promedio y la media (Usar las funciones NumPy)

resultado = df.groupby('type')['weekly_sales'].agg(['min', 'max', 'mean', 'median'])

# Resultado
resultado

Unnamed: 0_level_0,min,max,mean,median
type,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
A,-1098.0,293966.05,23667.624573,11910.165
B,-798.0,232558.51,25696.67837,13336.08
C,0.01,104161.4,24323.522925,16643.205


In [27]:
# Para cada tipo de tienda, agrega los campos 'unemployment' y 'fuel_price_usd_per_l' y calcula el min, max, promedio y mediana

resultado2 = df.groupby('type')[['weekly_sales', 'unemployment', 'fuel_price_usd_per_l']].agg(['min', 'max', 'mean', 'median'])

# Resultado
resultado2

Unnamed: 0_level_0,weekly_sales,weekly_sales,weekly_sales,weekly_sales,unemployment,unemployment,unemployment,unemployment,fuel_price_usd_per_l,fuel_price_usd_per_l,fuel_price_usd_per_l,fuel_price_usd_per_l
Unnamed: 0_level_1,min,max,mean,median,min,max,mean,median,min,max,mean,median
type,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2
A,-1098.0,293966.05,23667.624573,11910.165,3.879,8.992,7.974131,8.067,0.670997,1.10741,0.744943,0.735455
B,-798.0,232558.51,25696.67837,13336.08,7.17,9.765,9.279323,9.199,0.760023,1.107674,0.805858,0.803348
C,0.01,104161.4,24323.522925,16643.205,6.858,8.899,7.832519,7.838,0.664129,0.921433,0.714793,0.710359


## Pivot Tables
<p> Las tablas dinámicas son la forma estándar de agregar datos en hojas de cálculo. En pandas, las tablas dinámicas son esencialmente otra forma de realizar cálculos agrupados. Es decir, el método <code>.pivot_table()</code> es justamente una alternativa a <code>.groupby()</code>.</p>

In [28]:
# Calcular el promedio de ventas semanales 'weekly_sales' por tipo de tienda con el metodo .pivot_table() 

pivote = pd.pivot_table(df,
                        values = 'weekly_sales',
                        index = 'type',
                        aggfunc = 'mean')

# Resultado
pivote

Unnamed: 0_level_0,weekly_sales
type,Unnamed: 1_level_1
A,23667.624573
B,25696.67837
C,24323.522925


In [29]:
# Calcular el promedio y la mediana de ventas semanales por tipo de tienda 

pivote2 = pd.pivot_table(data=df,
                         values='weekly_sales',
                         index='type',
                         aggfunc=['mean', 'median'])

# Resultado
pivote2

Unnamed: 0_level_0,mean,median
Unnamed: 0_level_1,weekly_sales,weekly_sales
type,Unnamed: 1_level_2,Unnamed: 2_level_2
A,23667.624573,11910.165
B,25696.67837,13336.08
C,24323.522925,16643.205


In [30]:
# Calcular el promedio de ventas semanales por tipo de tienda y departamento

pivote3 = pd.pivot_table(data=df,
                         values='weekly_sales',
                         index='department',
                         columns='type',
                         aggfunc='mean')

# Resultado
pivote3

type,A,B,C
department,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,31145.215923,44050.626667,19034.840000
2,67736.748231,112958.526667,58721.845000
3,17124.044538,30580.655000,19497.300000
4,44265.151679,51219.654167,46937.810000
5,34942.639618,63236.875000,18887.710000
...,...,...,...
95,124084.721374,77082.102500,104161.400000
96,21184.264918,9528.538333,26941.770000
97,28503.679612,5828.873333,27077.523333
98,12952.719843,217.428333,10912.088000


In [31]:
# Calcular el promedio de ventas semanales por tipo de tienda y departamento, reemplazando los valores nulos con 0

pivote4 = pd.pivot_table(data=df,
                         values='weekly_sales',
                         index='department',
                         columns='type',
                         aggfunc=['mean','median'],
                         fill_value=0) # <- aqui se reemplazan los NaN por 0

# Resultado
pivote4

Unnamed: 0_level_0,mean,mean,mean,median,median,median
type,A,B,C,A,B,C
department,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
1,31145.215923,44050.626667,19034.840000,24780.020,31986.360,19034.840
2,67736.748231,112958.526667,58721.845000,68888.635,112812.985,58721.845
3,17124.044538,30580.655000,19497.300000,13396.805,23145.625,19497.300
4,44265.151679,51219.654167,46937.810000,42482.680,51485.930,46937.810
5,34942.639618,63236.875000,18887.710000,30363.630,60400.660,18887.710
...,...,...,...,...,...,...
95,124084.721374,77082.102500,104161.400000,124022.940,76416.640,104161.400
96,21184.264918,9528.538333,26941.770000,24648.995,9503.140,27144.895
97,28503.679612,5828.873333,27077.523333,27150.780,5856.705,24082.800
98,12952.719843,217.428333,10912.088000,12815.020,34.100,11831.340


In [32]:
# Calcular el promedio de ventas semanales por tipo de tienda (A y B unicamente) y departamento, reemplazando los valores nulos con 0 y sumando las filas y columnas

pivote5 = pd.pivot_table(data=df[df['type'].isin(['A', 'B'])],
                         values='weekly_sales',
                         index='department',
                         columns='type',
                         aggfunc=['mean', 'median', 'sum'],
                         fill_value=0,
                         margins=True)

pivote5.to_csv('export_EXAMPLE_pivote5.csv')
pivote5.to_clipboard() # <- copia en Ctr+C - Ctrl+V

# Resultado
pivote5


Unnamed: 0_level_0,mean,mean,mean,median,median,median,sum,sum,sum
type,A,B,All,A,B,All,A,B,All
department,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2
1,31145.215923,44050.626667,32235.814014,24780.020,31986.360,25660.830,4.048878e+06,528607.52,4.577486e+06
2,67736.748231,112958.526667,71558.306972,68888.635,112812.985,70208.070,8.805777e+06,1355502.32,1.016128e+07
3,17124.044538,30580.655000,18261.222887,13396.805,23145.625,13788.100,2.226126e+06,366967.86,2.593094e+06
4,44265.151679,51219.654167,44848.746294,42482.680,51485.930,43921.800,5.798735e+06,614635.85,6.413371e+06
5,34942.639618,63236.875000,37316.981049,30363.630,60400.660,30961.250,4.577486e+06,758842.50,5.336328e+06
...,...,...,...,...,...,...,...,...,...
96,21184.264918,9528.538333,20140.468507,24648.995,9503.140,23303.670,2.584480e+06,114342.46,2.698823e+06
97,28503.679612,5828.873333,26573.908865,27150.780,5856.705,26474.460,3.676975e+06,69946.48,3.746921e+06
98,12952.719843,217.428333,11853.270216,12815.020,34.100,11981.410,1.644995e+06,2609.14,1.647605e+06
99,377.993388,0.000000,377.993388,167.000,0.000,167.000,4.573720e+04,0.00,4.573720e+04
