## Preparación para el Examen de Unidad: Distinción en Data Science

En este módulo, vamos a preparar la presentación de los exámenes de la Unidad 1, cuyo objetivo es otorgar la Distinción en Data Science, un reconocimiento creativo y prestigioso para aquellos que demuestren una comprensión profunda y habilidades excepcionales en fundamentos de data science. Este examen es crucial para evaluar tu conocimiento y habilidades adquiridas a lo largo del curso y determinará tu nivel de competencia en este campo.

**Estructura del Examen**

El examen estará diseñado para evaluar múltiples competencias clave en data science, incluyendo:

Técnicas de limpieza de datos.

Métodos de exploración de datos.

Funciones avanzadas de Pandas para la transformación de datos



In [4]:
import numpy as np
import pandas as pd
import json

In [5]:
# Paso 1: Cargar el dataset
df = pd.read_csv('../data/kaggle/ventas_tienda_simulada.csv')
print(df.shape)
df.head()

(20, 5)


Unnamed: 0,fecha,producto,cantidad,precio_unitario,total
0,2023-01-01,Producto_A,2.0,10.5,21.0
1,2023-01-02,Producto_B,,20.0,
2,2023-01-03,Producto_C,5.0,,
3,2023-01-04,Producto_D,7.0,15.0,105.0
4,2023-01-05,Producto_A,1.0,12.0,12.0


In [6]:
df.isnull().sum(axis=0)

fecha              0
producto           0
cantidad           4
precio_unitario    4
total              8
dtype: int64

In [7]:
df.loc[df.isnull()['total']]

Unnamed: 0,fecha,producto,cantidad,precio_unitario,total
1,2023-01-02,Producto_B,,20.0,
2,2023-01-03,Producto_C,5.0,,
6,2023-01-07,Producto_C,,,
8,2023-01-09,Producto_A,2.0,10.0,
9,2023-01-10,Producto_B,,,
13,2023-01-14,Producto_B,,25.0,
16,2023-01-17,Producto_A,8.0,10.0,
18,2023-01-19,Producto_C,7.0,,


In [8]:
df.loc[df.producto=='Producto_A',:] 

Unnamed: 0,fecha,producto,cantidad,precio_unitario,total
0,2023-01-01,Producto_A,2.0,10.5,21.0
4,2023-01-05,Producto_A,1.0,12.0,12.0
8,2023-01-09,Producto_A,2.0,10.0,
12,2023-01-13,Producto_A,5.0,20.0,100.0
16,2023-01-17,Producto_A,8.0,10.0,


In [9]:
df.loc[df.producto=='Producto_A','total'] = df.loc[df.producto=='Producto_A','cantidad'] * df.loc[df.producto=='Producto_A','precio_unitario'] 
df.loc[df.producto=='Producto_A',:] 

Unnamed: 0,fecha,producto,cantidad,precio_unitario,total
0,2023-01-01,Producto_A,2.0,10.5,21.0
4,2023-01-05,Producto_A,1.0,12.0,12.0
8,2023-01-09,Producto_A,2.0,10.0,20.0
12,2023-01-13,Producto_A,5.0,20.0,100.0
16,2023-01-17,Producto_A,8.0,10.0,80.0


In [10]:
df.loc[df.producto=='Producto_A',:] 

Unnamed: 0,fecha,producto,cantidad,precio_unitario,total
0,2023-01-01,Producto_A,2.0,10.5,21.0
4,2023-01-05,Producto_A,1.0,12.0,12.0
8,2023-01-09,Producto_A,2.0,10.0,20.0
12,2023-01-13,Producto_A,5.0,20.0,100.0
16,2023-01-17,Producto_A,8.0,10.0,80.0


In [11]:
df.loc[df.producto=='Producto_B',:] 

Unnamed: 0,fecha,producto,cantidad,precio_unitario,total
1,2023-01-02,Producto_B,,20.0,
5,2023-01-06,Producto_B,4.0,25.0,100.0
9,2023-01-10,Producto_B,,,
13,2023-01-14,Producto_B,,25.0,
17,2023-01-18,Producto_B,4.0,11.0,44.0


In [15]:
df.loc[df.producto=='Producto_B',:].dropna(inplace=True)
df.loc[df.producto=='Producto_B',:]

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df.loc[df.producto=='Producto_B',:].dropna(inplace=True)


Unnamed: 0,fecha,producto,cantidad,precio_unitario,total
1,2023-01-02,Producto_B,,20.0,
5,2023-01-06,Producto_B,4.0,25.0,100.0
9,2023-01-10,Producto_B,,,
13,2023-01-14,Producto_B,,25.0,
17,2023-01-18,Producto_B,4.0,11.0,44.0


In [16]:
~df.index.isin(df.dropna().index)

array([False,  True,  True, False, False, False,  True, False, False,
        True, False, False, False,  True, False, False, False, False,
        True, False])

In [17]:
# los valores que voy a conservar
(df['producto'] == 'Producto_B') & df.index.isin(df.dropna().index)

0     False
1     False
2     False
3     False
4     False
5      True
6     False
7     False
8     False
9     False
10    False
11    False
12    False
13    False
14    False
15    False
16    False
17     True
18    False
19    False
Name: producto, dtype: bool

In [18]:
df = df[~((df['producto'] == 'Producto_B') & ~df.index.isin(df.dropna().index))]

In [19]:
df.loc[df.producto=='Producto_D',:] 

Unnamed: 0,fecha,producto,cantidad,precio_unitario,total
3,2023-01-04,Producto_D,7.0,15.0,105.0
7,2023-01-08,Producto_D,3.0,30.0,90.0
11,2023-01-12,Producto_D,4.0,18.0,72.0
15,2023-01-16,Producto_D,3.0,9.0,27.0
19,2023-01-20,Producto_D,6.0,15.0,90.0


In [20]:
df.loc[df.producto=='Producto_C',:]

Unnamed: 0,fecha,producto,cantidad,precio_unitario,total
2,2023-01-03,Producto_C,5.0,,
6,2023-01-07,Producto_C,,,
10,2023-01-11,Producto_C,6.0,22.0,132.0
14,2023-01-15,Producto_C,1.0,14.0,14.0
18,2023-01-19,Producto_C,7.0,,


In [25]:
def calcula_precio(cantidad,cantidad_base=1,precio_base=1,ratio_crecimiento=1):
    precio = precio_base + (ratio_crecimiento*(cantidad-cantidad_base))
    return precio

In [26]:
cantidad_base = 1
precio_base = 14
ratio_crecimiento =(22-14)/(6-1)
cantidad = 6
calcula_precio(cantidad,cantidad_base, precio_base,ratio_crecimiento)

22.0

In [27]:
ratio_crecimiento

1.6

In [28]:
(df['producto'] == 'Producto_C')

0     False
2      True
3     False
4     False
5     False
6      True
7     False
8     False
10     True
11    False
12    False
14     True
15    False
16    False
17    False
18     True
19    False
Name: producto, dtype: bool

In [29]:
df['precio_unitario'].isnull()

0     False
2      True
3     False
4     False
5     False
6      True
7     False
8     False
10    False
11    False
12    False
14    False
15    False
16    False
17    False
18     True
19    False
Name: precio_unitario, dtype: bool

In [30]:
~df['cantidad'].isnull()

0      True
2      True
3      True
4      True
5      True
6     False
7      True
8      True
10     True
11     True
12     True
14     True
15     True
16     True
17     True
18     True
19     True
Name: cantidad, dtype: bool

In [31]:
df[(df['producto'] == 'Producto_C') & (df['precio_unitario'].isnull()) & (~df['cantidad'].isnull())]

Unnamed: 0,fecha,producto,cantidad,precio_unitario,total
2,2023-01-03,Producto_C,5.0,,
18,2023-01-19,Producto_C,7.0,,


In [32]:
condicion = (df['producto'] == 'Producto_C') & (df['precio_unitario'].isnull()) & (~df['cantidad'].isnull())
for cantidad in df.loc[condicion,'cantidad']:
    print("La cantidad es: ", cantidad)

La cantidad es:  5.0
La cantidad es:  7.0


In [33]:
precios = []
cantidad_base = 1
precio_base = 14
ratio_crecimiento =(22-14)/(6-1)
for cantidad in df.loc[condicion,'cantidad']:
    precio = calcula_precio(cantidad, precio_base,ratio_crecimiento)
    precios.append(precio)
precios

[-7.4, -5.4]

In [34]:
df.loc[condicion,'precio_unitario'] = precios
df[(df['producto'] == 'Producto_C')]


Unnamed: 0,fecha,producto,cantidad,precio_unitario,total
2,2023-01-03,Producto_C,5.0,-7.4,
6,2023-01-07,Producto_C,,,
10,2023-01-11,Producto_C,6.0,22.0,132.0
14,2023-01-15,Producto_C,1.0,14.0,14.0
18,2023-01-19,Producto_C,7.0,-5.4,


In [35]:
df.loc[:,'total'] = df['cantidad']*df['precio_unitario']
df[(df['producto'] == 'Producto_C')]

Unnamed: 0,fecha,producto,cantidad,precio_unitario,total
2,2023-01-03,Producto_C,5.0,-7.4,-37.0
6,2023-01-07,Producto_C,,,
10,2023-01-11,Producto_C,6.0,22.0,132.0
14,2023-01-15,Producto_C,1.0,14.0,14.0
18,2023-01-19,Producto_C,7.0,-5.4,-37.8


In [36]:
df.dropna(inplace=True)

In [37]:
df['cantidad'].describe()

count    16.000000
mean      4.250000
std       2.175623
min       1.000000
25%       2.750000
50%       4.000000
75%       6.000000
max       8.000000
Name: cantidad, dtype: float64

In [38]:
df['total'].describe()

count     16.000000
mean      52.012500
std       51.375764
min      -37.800000
25%       18.500000
50%       58.000000
75%       92.500000
max      132.000000
Name: total, dtype: float64

In [39]:
df['precio_unitario'].describe()

count    16.000000
mean     13.043750
std       9.650352
min      -7.400000
25%      10.000000
50%      13.000000
75%      18.500000
max      30.000000
Name: precio_unitario, dtype: float64