## Demo en clase 6

#### Algunas anotaciones frente al ejercicio de limpieza y búsqueda

In [19]:
%%time
import os
import pandas as pd

# Ruta de la carpeta que contiene los archivos
ruta_carpeta = 'data_files/'  # Reemplaza esto con la ruta de tu carpeta

# Lista para almacenar los DataFrames cargados
dataframes = []

# Recorre todos los archivos en la carpeta
for archivo in os.listdir(ruta_carpeta):
    # Verifica si el archivo tiene una extensión que corresponde a un archivo CSV o Excel
    if archivo.endswith('.csv') or archivo.endswith('.xlsx'):
        # Construye la ruta completa del archivo
        ruta_archivo = os.path.join(ruta_carpeta, archivo)
        print("Cargando:", ruta_archivo)
        # Carga el archivo en un DataFrame y agrega a la lista (** hablar de la notación one line)
        df = pd.read_csv(ruta_archivo) if archivo.endswith('.csv') else pd.read_excel(ruta_archivo)
        dataframes.append(df)

print("Cuántos dataframes resultaron: " , len(dataframes))
# Combinar todos los DataFrames en uno solo (** hablar del index)
df_combinado = pd.concat(dataframes, ignore_index=True)

# Ahora el DataFrame "df_combinado" contiene toda la información de los DataFrames cargados desde los archivos.
df_combinado

Cargando: data_files/Sales_April_2019.csv
Cargando: data_files/Sales_August_2019.csv
Cargando: data_files/Sales_December_2019.csv
Cargando: data_files/Sales_February_2019.csv
Cargando: data_files/Sales_January_2019.csv
Cargando: data_files/Sales_July_2019.csv
Cargando: data_files/Sales_June_2019.csv
Cargando: data_files/Sales_March_2019.csv
Cargando: data_files/Sales_May_2019.csv
Cargando: data_files/Sales_November_2019.csv
Cargando: data_files/Sales_October_2019.csv
Cargando: data_files/Sales_September_2019.csv
Cuántos dataframes resultaron:  12
Wall time: 342 ms


Unnamed: 0,Order ID,Product,Quantity Ordered,Price Each,Order Date,Purchase Address
0,176558,USB-C Charging Cable,2,11.95,04/19/19 08:46,"917 1st St, Dallas, TX 75001"
1,,,,,,
2,176559,Bose SoundSport Headphones,1,99.99,04/07/19 22:30,"682 Chestnut St, Boston, MA 02215"
3,176560,Google Phone,1,600,04/12/19 14:38,"669 Spruce St, Los Angeles, CA 90001"
4,176560,Wired Headphones,1,11.99,04/12/19 14:38,"669 Spruce St, Los Angeles, CA 90001"
...,...,...,...,...,...,...
186845,259353,AAA Batteries (4-pack),3,2.99,09/17/19 20:56,"840 Highland St, Los Angeles, CA 90001"
186846,259354,iPhone,1,700,09/01/19 16:00,"216 Dogwood St, San Francisco, CA 94016"
186847,259355,iPhone,1,700,09/23/19 07:39,"220 12th St, San Francisco, CA 94016"
186848,259356,34in Ultrawide Monitor,1,379.99,09/19/19 17:30,"511 Forest St, San Francisco, CA 94016"


In [20]:
df_combinado.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 186850 entries, 0 to 186849
Data columns (total 6 columns):
 #   Column            Non-Null Count   Dtype 
---  ------            --------------   ----- 
 0   Order ID          186305 non-null  object
 1   Product           186305 non-null  object
 2   Quantity Ordered  186305 non-null  object
 3   Price Each        186305 non-null  object
 4   Order Date        186305 non-null  object
 5   Purchase Address  186305 non-null  object
dtypes: object(6)
memory usage: 8.6+ MB


#### Problema, tenemos datos incorrectos en la columna pero no podemos verlos pr la cantidad.

¿Qué opciones tenemos?

Diferentes a la exploración manual **

##### Usamos alguna medida de agregación que nos permita disminuir

In [21]:
## Algo como esto...
df_combinado["Price Each"].unique()
## Pero y si tenemos más de lo que muestra la vista por defecto

array(['11.95', nan, '99.99', '600', '11.99', '1700', '14.95', '389.99',
       '3.84', '150', '2.99', '700', '300', '149.99', '109.99', '600.0',
       '999.99', '400', '379.99', 'Price Each', '700.0', '1700.0',
       '150.0', '300.0', '400.0'], dtype=object)

#### Pero a veces esto no es suficiente o confiable

In [34]:
# Como en este caso....
df_combinado["Order Date"].unique()

array(['04/19/19 08:46', nan, '04/07/19 22:30', ..., '09/23/19 07:39',
       '09/19/19 17:30', '09/30/19 00:18'], dtype=object)

Acá podemos ver que no es posible identificarlo

### Podemos abordalo de manera más sistemática

In [36]:
# Convertir la columna 'Price Each' a numérica y tratar los valores no numéricos como NaN
df_combinado['Price Each'] = pd.to_numeric(df_combinado['Price Each'], errors='coerce')
df_combinado.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 186850 entries, 0 to 186849
Data columns (total 6 columns):
 #   Column            Non-Null Count   Dtype  
---  ------            --------------   -----  
 0   Order ID          186305 non-null  object 
 1   Product           186305 non-null  object 
 2   Quantity Ordered  186305 non-null  object 
 3   Price Each        185950 non-null  float64
 4   Order Date        186305 non-null  object 
 5   Purchase Address  186305 non-null  object 
dtypes: float64(1), object(5)
memory usage: 8.6+ MB


In [37]:
# Identificar los valores no numéricos (NaN) en la columna 'Price Each'
valores_no_numericos = df_combinado[df_combinado['Price Each'].isna()]

# Acá podríamos borrarlo o proceder a ejecutar algún tipo de imputación

Unnamed: 0,Order ID,Product,Quantity Ordered,Price Each,Order Date,Purchase Address
519,Order ID,Product,Quantity Ordered,,Order Date,Purchase Address
1149,Order ID,Product,Quantity Ordered,,Order Date,Purchase Address
1155,Order ID,Product,Quantity Ordered,,Order Date,Purchase Address
2878,Order ID,Product,Quantity Ordered,,Order Date,Purchase Address
2893,Order ID,Product,Quantity Ordered,,Order Date,Purchase Address
...,...,...,...,...,...,...
185164,Order ID,Product,Quantity Ordered,,Order Date,Purchase Address
185551,Order ID,Product,Quantity Ordered,,Order Date,Purchase Address
186563,Order ID,Product,Quantity Ordered,,Order Date,Purchase Address
186632,Order ID,Product,Quantity Ordered,,Order Date,Purchase Address


In [38]:
valores_no_numericos[valores_no_numericos["Product"] == "Product"]

Unnamed: 0,Order ID,Product,Quantity Ordered,Price Each,Order Date,Purchase Address
519,Order ID,Product,Quantity Ordered,,Order Date,Purchase Address
1149,Order ID,Product,Quantity Ordered,,Order Date,Purchase Address
1155,Order ID,Product,Quantity Ordered,,Order Date,Purchase Address
2878,Order ID,Product,Quantity Ordered,,Order Date,Purchase Address
2893,Order ID,Product,Quantity Ordered,,Order Date,Purchase Address
...,...,...,...,...,...,...
185164,Order ID,Product,Quantity Ordered,,Order Date,Purchase Address
185551,Order ID,Product,Quantity Ordered,,Order Date,Purchase Address
186563,Order ID,Product,Quantity Ordered,,Order Date,Purchase Address
186632,Order ID,Product,Quantity Ordered,,Order Date,Purchase Address


### ¿Cómo hacerlo para formatos especiales como las fechas?

Atención especial al tema de dia / mes / año vs mes / día  / año

In [45]:
# Como en este caso....
df_combinado["Order Date"].value_counts()

Order Date        355
12/15/19 20:16      8
04/02/19 13:24      7
10/30/19 21:28      7
12/11/19 13:24      7
                 ... 
02/09/19 15:16      1
10/09/19 18:04      1
06/15/19 09:13      1
08/22/19 23:17      1
09/12/19 19:06      1
Name: Order Date, Length: 142396, dtype: int64

#### Gestión de excepciones y funciones de conversión
Acá podemos hacer manejo de excepciones 

In [52]:
import pandas as pd
from datetime import datetime

# Supongamos que tienes el DataFrame df_combinado

# Función para verificar si un valor es una fecha válida
def es_fecha_valida(date_str):
    if isinstance(date_str, str):  # Verificar si es una cadena (str)
        try:
            datetime.strptime(date_str, '%m/%d/%y %H:%M')
            return True
        except ValueError:            
            return False
    else:
        return False

# Identificar los valores no válidos en la columna 'Order Date'
valores_no_validos = df_combinado[~df_combinado['Order Date'].apply(es_fecha_valida)]
print(valores_no_validos)

        Order ID  Product  Quantity Ordered  Price Each  Order Date  \
1            NaN      NaN               NaN         NaN         NaN   
356          NaN      NaN               NaN         NaN         NaN   
519     Order ID  Product  Quantity Ordered         NaN  Order Date   
735          NaN      NaN               NaN         NaN         NaN   
1149    Order ID  Product  Quantity Ordered         NaN  Order Date   
...          ...      ...               ...         ...         ...   
186548       NaN      NaN               NaN         NaN         NaN   
186563  Order ID  Product  Quantity Ordered         NaN  Order Date   
186632  Order ID  Product  Quantity Ordered         NaN  Order Date   
186738  Order ID  Product  Quantity Ordered         NaN  Order Date   
186826       NaN      NaN               NaN         NaN         NaN   

        Purchase Address  
1                    NaN  
356                  NaN  
519     Purchase Address  
735                  NaN  
1149    Purc

# Resumen

¿Qué podemos hacer?

### Usando expresiones regulares

Si los valores erróneos siguen un patrón específico, puedes utilizar expresiones regulares para detectarlos. Por ejemplo, si tienes una columna que debería contener solo números enteros, pero algunos valores contienen letras o caracteres especiales, puedes utilizar regex para identificarlos.

In [58]:
import pandas as pd

# Crear un DataFrame de prueba
data = {'Columna': [10, 15, 'abc', 25, 30, 100, 'xyz', 40, 45, 50]}
df_combinado = pd.DataFrame(data)

# Supongamos que tienes el DataFrame df_combinado y la columna 'Columna' con valores enteros
# Utilizar regex para detectar valores no enteros en la columna
valores_no_enteros = df_combinado[~df_combinado['Columna'].astype(str).str.match(r'^\d+$')]

valores_no_enteros

Unnamed: 0,Columna
2,abc
6,xyz


### Utilizando funciones específicas para cada tipo de dato:
Si tienes información sobre los tipos de datos esperados en cada columna, puedes utilizar funciones específicas para cada tipo de dato para detectar valores erróneos. Por ejemplo, si una columna debería contener solo fechas válidas, puedes usar la función pd.to_datetime y capturar excepciones para identificar fechas no válidas.

In [59]:
import pandas as pd

# Crear un DataFrame de prueba con fechas válidas e inválidas
data = {'Fecha': ['2022-01-01', '2022-02-15', '2022-03-25', '2022-04-32', '2022-05-15', '2022-06-30', '2022-07-10', '2022-08-20', '2022-09-31']}
df_combinado = pd.DataFrame(data)

# Función para verificar si un valor es una fecha válida
def es_fecha_valida(date_str):
    try:
        pd.to_datetime(date_str, format='%Y-%m-%d')
        return True
    except ValueError:
        return False

# Identificar las fechas no válidas en la columna 'Fecha'
fechas_no_validas = df_combinado[~df_combinado['Fecha'].apply(es_fecha_valida)]

print(fechas_no_validas)


        Fecha
3  2022-04-32
8  2022-09-31


### Utilizando la función isin():

Si conoces un conjunto de valores válidos para la columna, puedes utilizar la función isin() para filtrar aquellos valores que no se encuentren en ese conjunto. Esto te permitirá detectar valores que no son válidos.

In [60]:
import pandas as pd

# Crear un DataFrame de prueba con valores válidos e inválidos en la columna 'Columna'
data = {'Columna': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]}
df_combinado = pd.DataFrame(data)

# Supongamos que tienes una lista de valores válidos
valores_validos = [1, 2, 3, 4, 5]

# Identificar valores no válidos en la columna 'Columna'
valores_no_validos = df_combinado[~df_combinado['Columna'].isin(valores_validos)]

print(valores_no_validos)


   Columna
5        6
6        7
7        8
8        9
9       10


### Utilizando el método applymap() para aplicar una función a cada elemento del DataFrame:
Si necesitas verificar valores erróneos en todas las celdas del DataFrame, puedes utilizar el método applymap() para aplicar una función a cada elemento del DataFrame y detectar aquellos que no cumplen con ciertas condiciones.

In [63]:
import pandas as pd

# Crear un DataFrame de prueba con valores positivos y negativos
data = {'Columna1': [1, -2, 3, -4, 5],
        'Columna2': [-6, 7, -8, 9, -10]}
df_combinado = pd.DataFrame(data)

# Función para verificar si un valor es negativo
def es_valor_negativo(valor):
    return valor < 0

# Identificar celdas con valores negativos
celdas_negativas = df_combinado.applymap(es_valor_negativo)

print(celdas_negativas)


   Columna1  Columna2
0     False      True
1      True     False
2     False      True
3      True     False
4     False      True


### Utilizando el método map() con un diccionario de mapeo:
Si conoces una lista de valores válidos y quieres reemplazar los valores no válidos por algún valor específico, puedes utilizar el método map() en combinación con un diccionario de mapeo para realizar la detección y corrección al mismo tiempo.

In [61]:
import pandas as pd

# Crear un DataFrame de prueba con valores válidos e inválidos en la columna 'Columna'
data = {'Columna': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]}
df_combinado = pd.DataFrame(data)

# Supongamos que tienes una lista de valores válidos
valores_validos = [1, 2, 3, 4, 5]

# Crear un diccionario de mapeo para reemplazar valores no válidos por NaN
diccionario_mapeo = {valor: valor if valor in valores_validos else None for valor in df_combinado['Columna']}

# Crear una nueva columna con los valores corregidos
df_combinado['Columna_Corregida'] = df_combinado['Columna'].map(diccionario_mapeo)

print(df_combinado)



   Columna  Columna_Corregida
0        1                1.0
1        2                2.0
2        3                3.0
3        4                4.0
4        5                5.0
5        6                NaN
6        7                NaN
7        8                NaN
8        9                NaN
9       10                NaN


### Utilizando la función apply() en una columna específica:
Si necesitas realizar una detección más compleja o aplicar una función específica a una columna para detectar valores erróneos, puedes utilizar la función apply() en la columna deseada.

In [62]:
import pandas as pd

# Crear un DataFrame de prueba con valores válidos e inválidos en la columna 'Columna'
data = {'Columna': [1, 2, 3, 0, -5, 6, -2, 8, 9, 10]}
df_combinado = pd.DataFrame(data)

# Función para verificar si un valor es válido
def es_valor_valido(valor):
    # Verificar si el valor es mayor que 0 (en este caso, solo se consideran valores positivos como válidos)
    return valor > 0

# Identificar valores no válidos en la columna 'Columna'
valores_no_validos = df_combinado[~df_combinado['Columna'].apply(es_valor_valido)]

print(valores_no_validos)


   Columna
3        0
4       -5
6       -2
