# Guia 2
### Producto

Escribir en un archivo tipo html de Jupyter  bloques de código y Markdown donde se tomen las variables de una base dada y se les realice lo siguiente:
* Limpieza de un carácter especial.
* Reducción de los nits de longitud mayor a 9.

In [1]:
# Importacion de recursos
from Config.config import Dataset as DR
from Services.etl import LeerDatos
from Services.encoding import DeteccionEncoding

## Limpieza de Caracteres Especiales

En el proceso de limpieza de datos, es fundamental validar el tipo de codificación de los archivos antes de su procesamiento. La codificación adecuada garantiza que los caracteres se interpreten correctamente y evita la introducción de caracteres especiales indeseados.

En algunos casos, los archivos que se necesitan procesar pueden provenir de diferentes fuentes con distintas codificaciones. Esta variabilidad puede generar problemas al leer los datos, lo que a menudo resulta en la aparición de caracteres especiales inesperados.

Para manejar este desafío, es recomendable implementar un bloque de código que intente leer los archivos utilizando diferentes codificaciones y maneje adecuadamente las excepciones en caso de falla. A continuación, se presenta un ejemplo en Python:

```python
try:
    # Intentar leer el archivo con la codificación especificada
    df = pd.read_csv('archivo.csv', encoding='utf-8')
except UnicodeDecodeError:
    # Si falla, intentar con otra codificación
    df = pd.read_csv('archivo.csv', encoding='latin-1')


### Tipos de Codificación de Caracteres

#### ASCII
- **Descripción:** Es una codificación de 7 bits que representa 128 caracteres, incluyendo letras, números y símbolos básicos.
- **Uso:** Adecuado para inglés y sistemas antiguos.
  
#### UTF-8
- **Descripción:** Codificación variable que usa de 1 a 4 bytes por carácter. Compatible con ASCII y capaz de representar cualquier carácter Unicode.
- **Uso:** Es el estándar más utilizado en la web y sistemas modernos.

#### UTF-16
- **Descripción:** Usa 2 o 4 bytes por carácter. Diseñado para equilibrar el tamaño y la compatibilidad con textos multilingües.
- **Uso:** Común en sistemas operativos como Windows.

#### ISO-8859-1 (Latin-1)
- **Descripción:** Codificación de 8 bits que representa 256 caracteres. Incluye caracteres de idiomas europeos occidentales.
- **Uso:** Anteriormente común en la web antes de la adopción generalizada de UTF-8.

#### Unicode
- **Descripción:** Es un estándar que define un conjunto universal de caracteres para todos los sistemas de escritura del mundo.
- **Uso:** Base para UTF-8, UTF-16, y otras codificaciones.


In [2]:
# Verificacion de encoding del Dataset de datos
DeteccionEncoding(archivo=DR.dataset)

utf-8


<Services.encoding.DeteccionEncoding at 0x21afcbf6210>

#### RTA: Para el caso del archivo actual la codificacion correcta es utf-8

## Lectura de DataFrame y generacion de limpieza de datos

In [3]:
# Creacion de instancia Leerdatos y generacion de DataFrame
df = LeerDatos(ruta_completa=DR.dataset,tipo_archivo='csv')
df.leer_archivo_csv(separador=',')
df.read_DataFrame(datos=df.df)

In [4]:
# Descripcion general de los datos
df.df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20000 entries, 0 to 19999
Data columns (total 14 columns):
 #   Column                  Non-Null Count  Dtype 
---  ------                  --------------  ----- 
 0   NIT                     20000 non-null  int64 
 1   RAZÓN SOCIAL            19998 non-null  object
 2   SUPERVISOR              20000 non-null  object
 3   REGIÓN                  20000 non-null  object
 4   DEPARTAMENTO DOMICILIO  20000 non-null  object
 5   CIUDAD DOMICILIO        20000 non-null  object
 6   CIIU                    20000 non-null  int64 
 7   MACROSECTOR             20000 non-null  object
 8   INGRESOS OPERACIONALES  20000 non-null  object
 9   GANANCIA (PÉRDIDA)      20000 non-null  object
 10  TOTAL ACTIVOS           20000 non-null  object
 11  TOTAL PASIVOS           20000 non-null  object
 12  TOTAL PATRIMONIO        20000 non-null  object
 13  Año de Corte            20000 non-null  int64 
dtypes: int64(3), object(11)
memory usage: 2.1+ MB


# Transformacion de un tipo de dato
## Documentación del Método `formato_entero`

### Descripción General

El método `formato_entero` se encarga de convertir los valores de las columnas especificadas de un DataFrame a números enteros. Este proceso es útil cuando se trabaja con datos que contienen números en formato texto, y se desea realizar operaciones numéricas con ellos. Además, el método maneja la eliminación de caracteres no numéricos, asegurando que los valores sean válidos para la conversión.

### Parámetros

- **`lista_columnas` (list)**: Una lista de nombres de columnas del DataFrame que se desean convertir a números enteros. Todas las columnas incluidas en esta lista deben contener valores que puedan ser transformados en enteros después de la limpieza de caracteres.

### Funcionamiento Interno

1. **Eliminación de Caracteres No Numéricos**:
   - Para cada columna en `lista_columnas`, el método convierte los valores a cadenas de texto y luego elimina cualquier carácter que no sea numérico, coma, o punto (`[^0-9.,]`). Esto es útil cuando los datos contienen símbolos u otros caracteres no deseados que podrían interferir con la conversión a enteros.

2. **Manejo de Valores Vacíos y Nulos**:
   - El método reemplaza las cadenas vacías (`''`) y valores nulos (`NaN`) con `'0'`. Esto asegura que todas las celdas tengan un valor numérico válido antes de proceder con la conversión.

3. **Conversión a Enteros**:
   - Después de limpiar los valores y manejar los vacíos, los datos se convierten primero a `float` para manejar cualquier decimal (por ejemplo, convertir '10.0' a 10), y luego a `int` para obtener el valor entero final.

### Ejemplo de Uso

A continuación se muestra un ejemplo de cómo utilizar el método `formato_entero` en un DataFrame `df`:

```python
# Instancia de la clase que contiene el método
mi_instancia = MiClase(df)

# Uso del método formato_entero
mi_instancia.formato_entero(lista_columnas=["COLUMNA1", "COLUMNA2"])



In [5]:
# Tranformar los valores a enteros
valores_enteros = [
    'INGRESOS OPERACIONALES', 
    'GANANCIA (PÉRDIDA)',     
    'TOTAL ACTIVOS',          
    'TOTAL PASIVOS',          
    'TOTAL PATRIMONIO'
]
df.formato_entero(lista_columnas=valores_enteros)

Unnamed: 0,NIT,RAZÓN SOCIAL,SUPERVISOR,REGIÓN,DEPARTAMENTO DOMICILIO,CIUDAD DOMICILIO,CIIU,MACROSECTOR,INGRESOS OPERACIONALES,GANANCIA (PÉRDIDA),TOTAL ACTIVOS,TOTAL PASIVOS,TOTAL PATRIMONIO,Año de Corte
0,899999068,ECOPETROL S.A,SUPERFINANCIERA,Bogotá - Cundinamarca,BOGOTA D.C.,BOGOTA D.C.-BOGOTA D.C.,610,MINERO,144,33,216,125,91,2022
1,900112515,REFINERIA DE CARTAGENA S.A.S,SUPERSOCIEDADES,Costa Atlántica,BOLIVAR,CARTAGENA-BOLIVAR,1921,MANUFACTURA,27,2,42,16,26,2022
2,830095213,ORGANIZACIÓN TERPEL S.A.,SUPERFINANCIERA,Bogotá - Cundinamarca,BOGOTA D.C.,BOGOTA D.C.-BOGOTA D.C.,4661,COMERCIO,23,0,7,4,3,2022
3,860069804,CARBONES DEL CERREJON LIMITED,SUPERSOCIEDADES,Bogotá - Cundinamarca,BOGOTA D.C.,BOGOTA D.C.-BOGOTA D.C.,510,MINERO,16,6,10,9,1,2022
4,800021308,DRUMMOND LTD,SUPERSOCIEDADES,Bogotá - Cundinamarca,BOGOTA D.C.,BOGOTA D.C.-BOGOTA D.C.,510,MINERO,15,2,14,6,7,2022
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
19995,900440256,EFIVENTAS Y SERVICIOS SAS,SUPERSOCIEDADES,Costa Atlántica,ATLANTICO,BARRANQUILLA-ATLANTICO,7490,SERVICIOS,0,0,0,0,0,2021
19996,890115230,QUIMIFEX SAS,SUPERSOCIEDADES,Costa Atlántica,ATLANTICO,BARRANQUILLA-ATLANTICO,4664,COMERCIO,0,0,0,0,0,2021
19997,901021850,EDGE NETWORK SERVICES COLOMBIA SAS,SUPERSOCIEDADES,Bogotá - Cundinamarca,BOGOTA D.C.,BOGOTA D.C.-BOGOTA D.C.,6190,SERVICIOS,0,0,0,0,0,2021
19998,900350192,DESTINO COMERCIAL SAS,SUPERSOCIEDADES,Antioquia,ANTIOQUIA,SABANETA-ANTIOQUIA,4771,COMERCIO,0,0,0,0,0,2021


## Evaluacion de caracteres especiales

##### Método `Limpiar_multiples_columnas`

El método `Limpiar_multiples_columnas` es parte de una clase diseñada para limpiar datos en un DataFrame, eliminando caracteres especiales de múltiples columnas especificadas. Este método permite aplicar una limpieza personalizada a cada columna, usando un diccionario que define los caracteres a eliminar en cada caso.

## Descripción

```python
def Limpiar_multiples_columnas(self, dict_columnas_caracteres: dict):
    """
    limpiar_multiples_columnas: Aplica la función de limpieza de datos a múltiples columnas en el DataFrame.
    
    Parámetros:
    - dict_columnas_caracteres (dict): Diccionario donde la clave es el nombre de la columna y el valor es una lista de caracteres especiales a limpiar.
    
    Retorna:
    - self.df: El DataFrame con las columnas limpias.
    """
    for columna, lista_caracteres in dict_columnas_caracteres.items():
        # Llamar al método limpiar_datos para cada columna y su lista de caracteres
        self.limpiar_datos(columna, lista_caracteres)
    
    return self.df


In [6]:
# Deteccion de caracteres especiales
df.resumen_caracteres_especiales()

{'RAZÓN SOCIAL': 6397,
 'REGIÓN': np.int64(10452),
 'DEPARTAMENTO DOMICILIO': np.int64(7866),
 'CIUDAD DOMICILIO': np.int64(20000)}

In [7]:
# El metodo caracteres_especiales_encontrados() encuentra los caracteres especiales
char = df.caracteres_especiales_encontrados()

In [8]:
# Limpiar los campos con caracteres especiales
df.Limpiar_multiples_columnas(dict_columnas_caracteres=char)

Unnamed: 0,NIT,RAZÓN SOCIAL,SUPERVISOR,REGIÓN,DEPARTAMENTO DOMICILIO,CIUDAD DOMICILIO,CIIU,MACROSECTOR,INGRESOS OPERACIONALES,GANANCIA (PÉRDIDA),TOTAL ACTIVOS,TOTAL PASIVOS,TOTAL PATRIMONIO,Año de Corte
0,899999068,ECOPETROL SA,SUPERFINANCIERA,Bogotá Cundinamarca,BOGOTA DC,BOGOTA DCBOGOTA DC,610,MINERO,144,33,216,125,91,2022
1,900112515,REFINERIA DE CARTAGENA SAS,SUPERSOCIEDADES,Costa Atlántica,BOLIVAR,CARTAGENABOLIVAR,1921,MANUFACTURA,27,2,42,16,26,2022
2,830095213,ORGANIZACIÓN TERPEL SA,SUPERFINANCIERA,Bogotá Cundinamarca,BOGOTA DC,BOGOTA DCBOGOTA DC,4661,COMERCIO,23,0,7,4,3,2022
3,860069804,CARBONES DEL CERREJON LIMITED,SUPERSOCIEDADES,Bogotá Cundinamarca,BOGOTA DC,BOGOTA DCBOGOTA DC,510,MINERO,16,6,10,9,1,2022
4,800021308,DRUMMOND LTD,SUPERSOCIEDADES,Bogotá Cundinamarca,BOGOTA DC,BOGOTA DCBOGOTA DC,510,MINERO,15,2,14,6,7,2022
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
19995,900440256,EFIVENTAS Y SERVICIOS SAS,SUPERSOCIEDADES,Costa Atlántica,ATLANTICO,BARRANQUILLAATLANTICO,7490,SERVICIOS,0,0,0,0,0,2021
19996,890115230,QUIMIFEX SAS,SUPERSOCIEDADES,Costa Atlántica,ATLANTICO,BARRANQUILLAATLANTICO,4664,COMERCIO,0,0,0,0,0,2021
19997,901021850,EDGE NETWORK SERVICES COLOMBIA SAS,SUPERSOCIEDADES,Bogotá Cundinamarca,BOGOTA DC,BOGOTA DCBOGOTA DC,6190,SERVICIOS,0,0,0,0,0,2021
19998,900350192,DESTINO COMERCIAL SAS,SUPERSOCIEDADES,Antioquia,ANTIOQUIA,SABANETAANTIOQUIA,4771,COMERCIO,0,0,0,0,0,2021


In [9]:
# Verificacion de la limpieza
df.caracteres_especiales_encontrados()

{}

Al finalizar el proceso de limpieza se evicencia que la funcion ```caracteres_especiales_encontrados()``` retorna un diccionario vacio, lo que indica que ya no hay caracteres especiales en el DataFrame

# Reducción de los nits de longitud mayor a 9.

## Documentación del Método `contar_caracteres`

### Descripción General

El método `contar_caracteres` se utiliza para validar si los valores en una columna específica de un DataFrame tienen una longitud mayor a un número determinado de caracteres. Este método es útil para identificar y analizar datos que exceden una longitud específica, como puede ser el caso de códigos, identificadores o cadenas de texto que requieren una longitud estándar.

### Parámetros

- **`nombre_columna` (str)**: El nombre de la columna del DataFrame en la cual se realizará la validación. Es importante que esta columna contenga datos que puedan ser convertidos a cadenas de texto.
  
- **`cantidad_caracteres` (int)**: El número de caracteres que se utilizará como umbral para la validación. El método verificará si los valores en la columna especificada tienen una longitud mayor a este valor.

### Funcionamiento Interno

1. **Conversión de Datos**:
   - El método convierte todos los valores de la columna especificada a cadenas de texto utilizando `astype(str)`. Esto asegura que cualquier dato numérico, fecha, o de otro tipo, pueda ser evaluado en términos de su longitud de caracteres.

2. **Filtrado de Filas**:
   - Utilizando `apply(len)`, se calcula la longitud de cada valor en la columna. Luego, se aplica una condición para filtrar solo aquellas filas en las que la longitud del valor es mayor que `cantidad_caracteres`.

3. **Validación y Resultado**:
   - Si existen filas que cumplen la condición de longitud, estas se imprimen en pantalla para su análisis.
   - Si ninguna fila cumple la condición, se imprime un mensaje indicando que ningún valor en la columna supera la longitud especificada.

### Ejemplo de Uso

A continuación, se muestra un ejemplo de cómo utilizar el método `contar_caracteres` en un DataFrame `df`:

```python
# Instancia de la clase que contiene el método
mi_instancia = MiClase(df)

# Uso del método contar_caracteres
mi_instancia.contar_caracteres(nombre_columna="RAZÓN SOCIAL", cantidad_caracteres=9)


In [10]:
df.contar_caracteres(nombre_columna='NIT',cantidad_caracteres=9)

Cantidad de caracteres: 9 no superada en NIT


## Resumen de Actividades

### Actividad 1: Limpieza de Datos

**Producto**:
- Crear un archivo HTML en Jupyter con bloques de código y Markdown.
- Realizar:
  - **Limpieza de Caracteres Especiales**: Eliminar caracteres especiales.
  - **Reducción de Longitud de Nits**: Filtrar valores con longitud mayor a 9.
- Enviar el archivo HTML al tutor.

**Instrucciones**:
1. Revisar materiales de estudio.
2. Cargar la base de datos y revisar variables.
3. Aplicar limpieza de caracteres y reducción de longitud.
4. Generar y enviar informe.

**Errores Frecuentes**:
- Bucles infinitos: Verificar condiciones.
- Índices incorrectos: Recordar numeración desde 0.
- Listas vs. Tuplas: Las tuplas son inmutables.

### Actividad 2: Transformación de Datos

**Producto**:
- Crear un archivo HTML en Jupyter con bloques de código y Markdown.
- Realizar:
  - **Transformación del Tipo de Dato**: Cambiar tipos de datos según sea necesario.
- Enviar el archivo HTML al tutor.

**Instrucciones**:
1. Revisar materiales de estudio.
2. Cargar la base de datos y revisar variables.
3. Aplicar transformación de tipos de datos.
4. Documentar cambios y enviar el archivo.

