# Analisis y Limpieza de datos con Pandas
Voy a dividir la parte del analisis de la limpieza

Como vamos a trabajar con la libreria pandas lo primero que hacemos es importarla

In [1]:
import pandas as pd

#### Leemos los datasets
Para un mayor orden a todos los datasets los puse dentro de la carpeta datasets

In [16]:
df_ventas = pd.read_excel('datasets/datasets_originales/ventas.xlsx')
df_detalle = pd.read_excel('datasets/datasets_originales//detalle_ventas.xlsx')
df_clientes = pd.read_excel('datasets/datasets_originales//clientes.xlsx')
df_productos = pd.read_excel('datasets/datasets_originales//productos.xlsx')


# Etapa analisis
Empezamos explorando los dataframes

Lo hare mediante una funcion para poder reutilizar en cada dataframe

In [17]:
# vamos a hacer una funcion para inspeccionar los dataframes
def inspeccionar_df(df, nombre_df):
    print(f"Inspeccionando el DataFrame: {nombre_df}")
    print("\nfilas, columnas:")
    print(df.shape)
    print("\nPrimeras filas:")
    print(df.head())
    print("\nInformación del DataFrame:")
    print(df.info())
    print("\nDescripción estadística:")
    print(df.describe(include='all'))
    print("\nValores nulos por columna:")
    print(df.isnull().sum())
    print("\nFilas duplicadas:", df.duplicated().sum())
    
    

Ahora podemos analizar uno por uno cada dataframe solo llamando a la funcion inspeccionar_df

## Dataframe clientes

In [18]:
inspeccionar_df(df_clientes, 'df_clientes')

Inspeccionando el DataFrame: df_clientes

filas, columnas:
(100, 5)

Primeras filas:
   id_cliente   nombre_cliente                     email      ciudad  \
0           1    Mariana Lopez    mariana.lopez@mail.com  Carlos Paz   
1           2    Nicolas Rojas    nicolas.rojas@mail.com  Carlos Paz   
2           3  Hernan Martinez  hernan.martinez@mail.com  Rio Cuarto   
3           4     Uma Martinez     uma.martinez@mail.com  Carlos Paz   
4           5  Agustina Flores  agustina.flores@mail.com     Cordoba   

  fecha_alta  
0 2023-01-01  
1 2023-01-02  
2 2023-01-03  
3 2023-01-04  
4 2023-01-05  

Información del DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 5 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   id_cliente      100 non-null    int64         
 1   nombre_cliente  100 non-null    object        
 2   email           100 non-null    object        
 

Luego de este analisis podemos concluir que:

- Tenemos 100 filas y 5 columnas 

- Los nombres de la columnas son correctos (minusculas y separados por guion bajo)

- No hay valores nulos

- Los tipos de datos son correctos

- Moda:
    
    - *nombre_cliente*: Bruno Castro (2)

    - *Ciudad*: Rio Cuarto (23)

- No hay filas duplicadas

## Dataframe productos

In [13]:
inspeccionar_df(df_productos, 'df_productos')

Inspeccionando el DataFrame: df_productos

filas, columnas:
(100, 4)

Primeras filas:
   id_producto     nombre_producto  categoria  precio_unitario
0            1      Coca Cola 1.5L  Alimentos             2347
1            2          Pepsi 1.5L   Limpieza             4973
2            3         Sprite 1.5L  Alimentos             4964
3            4  Fanta Naranja 1.5L   Limpieza             2033
4            5  Agua Mineral 500ml  Alimentos             4777

Información del DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 4 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   id_producto      100 non-null    int64 
 1   nombre_producto  100 non-null    object
 2   categoria        100 non-null    object
 3   precio_unitario  100 non-null    int64 
dtypes: int64(2), object(2)
memory usage: 3.3+ KB
None

Descripción estadística:
        id_producto nombre_producto  categoria  precio

Luego de este analisis podemos concluir que:

- Tenemos 100 filas y 4 columnas 

- Los nombres de la columnas son correctos (minusculas y separados por guion bajo)

- No hay valores nulos

- ❌**Hay productos mal categorizados**

- ❌**precio_unitario tiene es entero y deberia ser decimal**

- Solo tenemos 2 categorias de productos

- No hay moda, ya que todos tienen igual frecuencia tanto en **nombre_producto** como **categoria**

- Precio_unitario:
    - **Promedio** = $2718.55
    - **Mediana** = $2516.00

- No hay filas duplicadas

## Dataframe ventas

In [14]:
inspeccionar_df(df_ventas, 'df_ventas')

Inspeccionando el DataFrame: df_ventas

filas, columnas:
(120, 6)

Primeras filas:
   id_venta      fecha  id_cliente    nombre_cliente  \
0         1 2024-06-19          62  Guadalupe Romero   
1         2 2024-03-17          49      Olivia Gomez   
2         3 2024-01-13          20      Tomas Acosta   
3         4 2024-02-27          36    Martina Molina   
4         5 2024-06-11          56        Bruno Diaz   

                       email     medio_pago  
0  guadalupe.romero@mail.com        tarjeta  
1      olivia.gomez@mail.com             qr  
2      tomas.acosta@mail.com        tarjeta  
3    martina.molina@mail.com  transferencia  
4        bruno.diaz@mail.com        tarjeta  

Información del DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 120 entries, 0 to 119
Data columns (total 6 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   id_venta        120 non-null    int64         
 1   fecha      

Luego de este analisis podemos concluir que:

- Tenemos 120 filas y 6 columnas 

- Los nombres de la columnas son correctos (minusculas y separados por guion bajo)

- No hay valores nulos

- Los tipos de datos son correctos

- Hay 67 cuentas de clientes diferentes (email)

- Hay 4 medios de pagos

- Moda:
    
    - *nombre_cliente*: Bruno Diaz (5)

    - *email*: bruno.diaz@mail.com (5)

- No hay filas duplicadas

## Dataframe detalle_ventas

In [15]:
inspeccionar_df(df_detalle, 'df_detalle')

Inspeccionando el DataFrame: df_detalle

filas, columnas:
(343, 6)

Primeras filas:
   id_venta  id_producto        nombre_producto  cantidad  precio_unitario  \
0         1           90    Toallas Húmedas x50         1             2902   
1         2           82  Aceitunas Negras 200g         5             2394   
2         2           39     Helado Vainilla 1L         5              469   
3         2           70           Fernet 750ml         2             4061   
4         2           22  Medialunas de Manteca         1             2069   

   importe  
0     2902  
1    11970  
2     2345  
3     8122  
4     2069  

Información del DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 343 entries, 0 to 342
Data columns (total 6 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   id_venta         343 non-null    int64 
 1   id_producto      343 non-null    int64 
 2   nombre_producto  343 non-null    object
 3   cantida

Luego de este analisis podemos concluir que:

- Tenemos 343 filas y 6 columnas 

- Los nombres de la columnas son correctos (minusculas y separados por guion bajo)

- No hay valores nulos

- ❌**Los tipos de datos precio_unitario e importe deberian ser del tipo decimal (estan como enteros)** 

- Hay 95 productos diferentes (nombre_producto)

- Moda: *nombre_producto*: Queso Rallado 150g (9)

- No hay filas duplicadas

----
Ya analice todos los dataframes y los casos a tener en cuenta a la hora de limpiar los datos estan en negrita y con una cruz roja (❌)

---

# Etapa de Limpieza
Para mantener los archivos originales y poder comparar el antes y el despues, voy a hacer una copia de todos los dataframes y modificar las copias, a estos nuevos datasets los pondré en una subcarpeta llamada datasets_limpios

In [19]:
df_clientes_limpio = df_clientes.copy()
df_productos_limpio = df_productos.copy()
df_ventas_limpio = df_ventas.copy()
df_detalle_limpio = df_detalle.copy()

# ahora guardamos los datasets en la subcarpeta datasets_limpios

df_clientes_limpio.to_excel('datasets/datasets_limpios/clientes_limpio.xlsx', index=False)
df_productos_limpio.to_excel('datasets/datasets_limpios/productos_limpio.xlsx', index=False)
df_ventas_limpio.to_excel('datasets/datasets_limpios/ventas_limpio.xlsx', index=False)
df_detalle_limpio.to_excel('datasets/datasets_limpios/detalle_ventas_limpio.xlsx', index=False)

----


de aqui para abajo es viejo

In [None]:
# Identificar filas duplicadas específicas en df_clientes, ya que manualmente vimos que habia duplicados en la columna nombre_cliente
df_clientes[df_clientes.duplicated(subset=['nombre_cliente'], keep=False)]

Unnamed: 0,id_cliente,nombre_cliente,email,ciudad,fecha_alta
7,8,Bruno Castro,bruno.castro@mail.com,Carlos Paz,2023-01-08
9,10,Karina Acosta,karina.acosta@mail.com,Cordoba,2023-01-10
20,21,Elena Rodriguez,elena.rodriguez@mail.com,Alta Gracia,2023-01-21
33,34,Bruno Castro,bruno.castro2@mail.com,Villa Maria,2023-02-03
40,41,Elena Rodriguez,elena.rodriguez2@mail.com,Alta Gracia,2023-02-10
45,46,Agustina Martinez,agustina.martinez@mail.com,Alta Gracia,2023-02-15
57,58,Karina Acosta,karina.acosta2@mail.com,Rio Cuarto,2023-02-27
78,79,Olivia Perez,olivia.perez@mail.com,Carlos Paz,2023-03-20
84,85,Agustina Martinez,agustina.martinez2@mail.com,Mendiolaza,2023-03-26
94,95,Olivia Perez,olivia.perez2@mail.com,Rio Cuarto,2023-04-05


Definimos que los nombres se repiten pero los otros datos no coinciden por lo tanto no se trata de duplicados

En el caso que tengamos valores nulos podemos aplicar las siguientes acciones

In [None]:
#sirve cualquiera de los datasets
df_clientes.dropna() #eliminamos filas con valores nulos, aunque en este caso no hay ningun valor nulo
df_clientes.fillna() #rellenamos valores nulos con un valor especifico, aunque en este caso no hay ningun valor nulo
df_clientes.fillna(df['columna'].mean()) #rellenamos valores nulos con la media de la columna, aunque en este caso no hay ningun valor nulo

En el caso que tengamos filas duplicadas podemos realizar las siguientes acciones

In [None]:
#sirve cualquiera de los datasets
df_clientes.drop_duplicates() #eliminamos filas duplicadas, aunque en este caso no hay ningun dato duplicado

In [None]:
# Estadísticas básicas
df_detalle.describe()
#esto me permite ver estadísticas como la media, desviación estándar, valores mínimos y máximos, y percentiles para las columnas numéricas en el dataset detalle_ventas

Unnamed: 0,id_venta,id_producto,cantidad,precio_unitario,importe
count,343.0,343.0,343.0,343.0,343.0
mean,61.492711,49.139942,2.962099,2654.495627,7730.078717
std,34.835525,29.135461,1.366375,1308.69472,5265.543077
min,1.0,1.0,1.0,272.0,272.0
25%,31.0,23.0,2.0,1618.5,3489.0
50%,61.0,47.0,3.0,2512.0,6702.0
75%,93.0,76.0,4.0,3876.0,10231.5
max,120.0,100.0,5.0,4982.0,24865.0


In [47]:
# Validar que todos los id_cliente en ventas existan en clientes
df_ventas[~df_ventas['id_cliente'].isin(df_clientes['id_cliente'])]

Unnamed: 0,id_venta,fecha,id_cliente,nombre_cliente,email,medio_pago


Esto muestra que no hay ventas asociadas a clientes que no esten en el dataset clientes

In [48]:
# Verificar productos inexistentes en detalle de venta
df_detalle[~df_detalle['id_producto'].isin(df_productos['id_producto'])]

Unnamed: 0,id_venta,id_producto,nombre_producto,cantidad,precio_unitario,importe


Esto muestra que no hay detalle de ventas asociadas a productos que no esten en el dataset productos

Lo que puedo hacer es que todos los datos esten en minusculas, para evitar errores, ya que algunos datos se encuentran capitalizados, pero otros no estan capitalizados de forma correcta

In [None]:
df_clientes_limpio = df_clientes.copy() #creo una copia del dataframe clientes para no modificar el original