# Objetivo: Recibiendo como entrada un BBDD se realiza un analisis para comprender su integridad.
# Entrada: DataFrame
# Salida: analisis descriptivo/cuantitavo sobre la integridad de la datos.
# Aspectos a evaluar: 
                     a) Valores vacios: 0, null, NaN.
                     b) Tipos de datos: Q de tipos de datos distintos en una misma columna 
                     c) Cantidad de datos por columna 
                     

In [96]:
import pandas as pd
import os as os
import numpy as np
import re
from dateutil import parser

In [97]:
# Lectura del CSV y guardado en una variable
def READ_CSV(x):
    return pd.read_csv(x, sep=",", encoding='latin-1')

FILE = READ_CSV('base-primer-relev-dispositivos.csv')

# Guardo los emails en una sola colimna de un DF
FILE_DF = pd.DataFrame()
# FILE_DF[0] = FILE

# Paso la columna con los email del DF a una lista
# email_list = []
# email_list = FILE_DF[0].values.tolist()


In [98]:
FILE.shape[0]

1798

In [99]:
def volumen (x):
    volumn = pd.DataFrame(columns=['Count'])
    volumn.loc['Filas'] = x.shape[0]
    volumn.loc['Columnas'] = x.shape[1]
    return volumn

In [100]:
def column_list (x):
    columns_list = []
    columns_list = x.columns
    return columns_list

In [101]:
def count_list (x):
    column_list = x.columns
    count_list = []
    for y in column_list:
        column_data = x[y]
        if column_data is not None:
            count_list.append(column_data.count())

    return count_list

In [102]:
def unique_list (x):
    column_list = x.columns
    unique_list = []
    for y in column_list:
        column_data = x[y]
        if column_data is not None:
            unique_list.append(column_data.nunique())

    return unique_list

In [103]:
def empty_list (x):
    column_list = x.columns
    empty_list = []
    for y in column_list:
        column_data = x[y]
        if column_data is not None:
            empty_list.append(column_data.eq(' ').sum())

    return empty_list

In [104]:
def cero_list (x):
    column_list = x.columns
    cero_list = []
    for y in column_list:
        column_data = x[y]
        if column_data is not None:
            cero_list.append(column_data.eq('0').sum())

    return cero_list

In [105]:
def unique_values_list (x):
    column_list = x.columns
    unique_values = []
    for y in column_list:
        column_data = x[y]
        if column_data is not None:
            unique_values.append(column_data.unique().tolist())

    return unique_values

In [106]:
def numeric_list(x):
    column_list = x.columns
    result_list = []

    for y in column_list:
        try:
            is_numeric = pd.to_numeric(x[y], errors='coerce')  # Utiliza 'coerce' para convertir a NaN si no es numérico
            is_numeric = is_numeric.notnull().all()  # Verifica si todos los valores de la columna son numéricos
            result_list.append(is_numeric)  # Agrega el resultado a la lista
        except ValueError:
            result_list.append(False)  # Si hay un error, marca la columna como no numérica

    return result_list  # Devuelve la lista con valores True o False por columna



In [107]:
def letter_list (x):
    column_list = x.columns
    letter_list = []
    for y in column_list:
        column_data = x[y]
        if column_data is not None:
            letter_list.append(column_data.astype(str).apply(lambda x: x.replace(" ", "").isalpha()).all())

    return letter_list

In [108]:
def null_list (x):
    column_list = x.columns
    null_list = []
    for y in column_list:
        column_data = x[y]
        if column_data is not None:
            null_list.append(column_data.isnull().sum())

    return null_list

In [109]:

def id_list(x):
    patron = re.compile(r"id", re.IGNORECASE)  
    column_list = x.columns
    resultados = []
    for elemento in column_list:
        if re.search(patron, str(elemento)):
            resultados.append(True)
        else:
            resultados.append(False)
    return resultados


In [110]:
#Recorro todas las filas de todas las columnas y si encuentra un @ en al menos una fila, marca esa columna con True.

def email_list (x):
    column_list = x.columns
    patron = re.compile(r"@", re.IGNORECASE)
    resultados = []
    for y in column_list:
        column_data = x[y]
        if re.search(patron, str(column_data)): 
           resultados.append(True)
        else:
            resultados.append(False)
    return resultados

In [111]:
print(volumen(FILE))
print(column_list(FILE))
print(empty_list(FILE))
print(cero_list(FILE))
print(null_list(FILE))
print(count_list(FILE))
print(unique_list(FILE))
print(letter_list (FILE))
print(email_list (FILE))


          Count
Filas      1798
Columnas    230
Index(['respondent_id', 'q0011', 'q0021', 'q0022', 'q0023_0001', 'q0023_0002',
       'q0023_0003', 'q0023_0004', 'q0023_0005', 'q0023_0006',
       ...
       'q0072_0018', 'q0073', 'q0075_0001', 'q0075_0002', 'q0075_0003',
       'q0075_0004', 'q0075_0005', 'q0075_0006', 'q0075_0007', 'q0075_0008'],
      dtype='object', length=230)
[0, 0, 0, 0, 1285, 1680, 858, 1579, 1615, 1709, 1686, 1702, 1448, 391, 1437, 718, 0, 0, 113, 113, 113, 552, 248, 431, 185, 439, 532, 1305, 1709, 1798, 1094, 515, 97, 161, 505, 878, 685, 1235, 728, 898, 777, 738, 738, 582, 476, 995, 588, 1514, 981, 791, 844, 529, 1363, 328, 1521, 1009, 735, 770, 917, 672, 1415, 1635, 585, 734, 784, 721, 1075, 1005, 672, 1135, 1600, 1724, 1583, 1137, 676, 1257, 903, 1430, 545, 1197, 1099, 1509, 1245, 1227, 979, 1334, 834, 561, 1037, 1705, 1446, 1180, 1674, 1502, 1669, 1681, 1750, 1613, 719, 1763, 1622, 1707, 1223, 450, 1442, 1103, 1201, 1267, 1340, 1350, 1439, 1211, 1511, 122,

In [112]:
resumen = pd.DataFrame(columns=['columnas'])
resumen['columnas'] = pd.Series(column_list(FILE))
resumen['count'] = pd.Series(count_list(FILE))
resumen['numeric'] = pd.Series(numeric_list(FILE))
resumen['letter'] = pd.Series(letter_list(FILE))
resumen['id_re'] = pd.Series(id_list(FILE))
resumen['email_re'] = pd.Series(email_list(FILE))
resumen['unique'] = pd.Series(unique_list(FILE))
resumen['vacios'] = pd.Series(empty_list(FILE))
resumen['cero'] = pd.Series(cero_list(FILE))
resumen['null'] = pd.Series(null_list(FILE))
# resumen['unique_value_list'] = pd.Series(unique_values_list(FILE))
print(resumen)


          columnas  count  numeric  letter  id_re  email_re  unique  vacios  \
0    respondent_id   1798     True   False   True     False    1798       0   
1            q0011   1798    False    True  False     False      24       0   
2            q0021   1798    False    True  False     False       3       0   
3            q0022   1798    False   False  False     False       7       0   
4       q0023_0001   1798    False   False  False     False       2    1285   
..             ...    ...      ...     ...    ...       ...     ...     ...   
225     q0075_0004   1798    False   False  False     False       2    1659   
226     q0075_0005   1798    False   False  False     False       2    1625   
227     q0075_0006   1798    False   False  False     False       2    1710   
228     q0075_0007   1798    False   False  False     False       2     961   
229     q0075_0008   1798    False   False  False     False       2    1564   

     cero  null  
0       0     0  
1       0     0

In [None]:
# Cuenta la cantidad de filas que contienen al menos un @

In [None]:
# Identifica si es un campo ID: count true, id true, unique = count

In [None]:
#Registros duplicados