<a href="https://colab.research.google.com/github/gismodes-dev/Navaja_Suiza/blob/main/navaja_suiza.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Navaja Suiza (v1.0.1)

## EDA (Exploratory Data Analysis)

### Carga de Librerias Principales para tratamiento de **Datos**

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

### Entendimiento de datos Inicial
* Ver columnas de DataFrame
* Información general del DataFrame
* Resumen estadístico del DataFrame
* Contar Valores Faltantes en cada columna
* Elimina una columna en especifico del dataframe
* Concatena 2 tablas una al lado de otra

Ver las primeras filas del DataFrame

In [None]:
print(data.head())

Información general del DataFrame

In [None]:
print(data.info())

Resumen estadístico del DataFrame

In [None]:
print(data.describe())

Contar valores faltantes en cada columna

In [None]:
print(data.isnull().sum())

Elimina una columna en especifico del dataframe


In [None]:
data = data.drop(['columna'], axis = 1)

Concatena 2 tablas una al lado de otra

In [None]:
sii_dummies = pd.concat([data1,data2], axis = 1)

Concatenar 2 columnas en 1 creando una nueva

---

Se crea una nueva columna en base a 2 columnas ya existentes para unir valores

In [None]:
data['rut_completo'] = data['RUT'].astype(str) + '-' + data['DV']
data.head()

### Gráficos de Visualización Inicial para entendimiento de los Datos y análisis estadístico
* Visualizar distribución de una columna numérica
* Visualizar la correlación entre columnas numéricas
* Visualizar valores faltantes en un mapa de calor
* Gráfico de barras para columnas categóricas
* Boxplot para identificar valores atípicos
* Scatter plot para visualizar relación entre dos variables numéricas
* Matriz de dispersión para visualizar relaciones entre múltiples variables numéricas

Visualizar distribución de una columna numérica

In [None]:
plt.figure(figsize=(8, 6))
sns.histplot(data['Columna_numerica'], bins=30, kde=True)
plt.title('Distribución de Columna Numerica')
plt.show()

Visualizar la correlación entre columnas numéricas

In [None]:
plt.figure(figsize=(10, 8))
sns.heatmap(data.corr(), annot=True, cmap='coolwarm', fmt='.2f')
plt.title('Correlación entre columnas numéricas')
plt.show()

Visualizar valores faltantes en un mapa de calor

In [None]:
plt.figure(figsize=(8, 6))
sns.heatmap(data.isnull(), cbar=False, cmap='viridis')
plt.title('Valores Faltantes')
plt.show()

Gráfico de barras para columnas categóricas

In [None]:
plt.figure(figsize=(10, 6))
sns.countplot(x='Columna_categorica', data=data)
plt.title('Gráfico de Barras para Columna Categórica')
plt.xticks(rotation=45)
plt.show()

Boxplot para identificar valores atípicos

In [None]:
plt.figure(figsize=(8, 6))
sns.boxplot(x='Columna_numerica', data=data)
plt.title('Boxplot para Columna Numerica')
plt.show()

Scatter plot para visualizar relación entre dos variables numéricas

In [None]:
plt.figure(figsize=(8, 6))
sns.scatterplot(x='Columna1', y='Columna2', data=data)
plt.title('Scatter Plot para Columna1 vs Columna2')
plt.show()

Matriz de dispersión para visualizar relaciones entre múltiples variables numéricas

In [None]:
sns.pairplot(data, diag_kind='kde')
plt.suptitle('Matriz de Dispersión')
plt.show()

### Modificación de información de Columnas con valores NAN

* Cambiar el tipo de columna de object (string) a float
* Cambiar el tipo de columna de object (string) a int
* Reemplazar valores faltantes (NaN) en la columna 'Columna_str'
* Reemplazar valores nulos ('nan') en la columna 'Columna_float' por el valor 0
* Visualizar el DataFrame con las columnas modificadas y valores reemplazados
* Reemplazar 'Null' por NaN

Cambiar el tipo de columna de object (string) a float con NA

In [None]:
df['Columna_float'] = df['Columna_float'].replace('nan', np.nan).astype(float)

Cambiar el tipo de columna de object (string) a int con NA

In [None]:
df['Columna_int'] = df['Columna_int'].replace('nan', np.nan).astype(float).astype(pd.Int32Dtype())

Reemplazar valores faltantes (NaN) en la columna 'Columna_str'

In [None]:
df['Columna_str'] = df['Columna_str'].fillna('No disponible')

Reemplazar valores nulos ('nan') en la columna 'Columna_float' por el valor 0

In [None]:
df['Columna_float'] = df['Columna_float'].replace(np.nan, 0)

Visualizar el DataFrame con las columnas modificadas y valores reemplazados

In [None]:
print("\nDataFrame con columnas modificadas y valores reemplazados:")
print(df)

Reemplazar 'Null' por NaN

In [None]:
maydf['Weight'] = maydf['Weight'].replace('Null', np.nan)

### Convertir formato de origen de columnas
* Cambiar el tipo de columna de float a object (string)
* Cambiar el tipo de columna de int a object (string)
* Visualizar el DataFrame con las columnas modificadas a objetos (strings)
* Cambiar el tipo de columna de object a float (float)

Cambiar el tipo de columna de float a object (string)

In [None]:
df['Columna_float'] = df['Columna_float'].astype(str)

Cambiar el tipo de columna de int a object (string)

In [None]:
df['Columna_int'] = df['Columna_int'].astype(str)

Visualizar el DataFrame con las columnas modificadas a objetos (strings)

In [None]:
print("\nDataFrame con columnas modificadas a objetos:")
print(df)

Cambiar el tipo de columna de object a float (float)

---

* Opcion 1: Se convierte la columna a tipo float utilizando pd.to_numeric con el parámetro errors='coerce', lo que convierte cualquier valor no numérico (incluidos los 'Null' convertidos a NaN) en NaN

* Opcion 2:
  * Utilizamos la función str.replace() para eliminar todos los caracteres no numéricos y dejar solo los dígitos y el punto decimal.
  * `[^\d.]` es una expresión regular que significa "todo lo que no sea un dígito o un punto". De esta manera, limpiamos la columna de cualquier carácter que no sea válido para la conversión a float.
  *  Utilizamos `pd.to_numeric()` para convertir la columna 'Weight' a tipo float.
  * El parámetro errors='coerce' hace que los valores no válidos (por ejemplo, cadenas que no se pueden convertir a float) sean reemplazados por NaN.
  * El parámetro `downcast='float'` asegura que los valores se almacenen como float en lugar de double, lo que puede ahorrar memoria si tus datos son lo suficientemente pequeños.
* Opcion 3:
  * Con `downcast='integer'`, aseguramos que los valores se conviertan a tipo int.

In [None]:
# Opcion 1
maydf['Weight'] = pd.to_numeric(maydf['Weight'], errors='coerce')
# Opcion 2
maydf['Weight'] = pd.to_numeric(maydf['Weight'].str.replace('[^\d.]', '', regex=True), errors='coerce', downcast='float')
#Opcion 3
maydf['Weight'] = pd.to_numeric(maydf['Weight'].str.replace('[^\d]', '', regex=True), errors='coerce', downcast='integer')

### Conteo de registros en una columna
* Contar la cantidad de datos de tipo float (puede ser del tipo que sea)
* Contar la cantidad de valores NaN del DataFrame
* Imprimir la cantidad de refistros de cada tipo anterior registrados en la "Columna" para revisar la totalidad de los registros cambiados
* Conseguir valores unicos de una columna especifica

Contar la cantidad de datos de tipo float (puede ser del tipo que sea)

In [None]:
cantidad_float = maydf['Weight'].astype(float).count()

Contar la cantidad de valores NaN del DataFrame

In [None]:
cantidad_nan = maydf['Weight'].isna().sum()

Imprimir la cantidad de refistros de cada tipo anterior registrados en la "Columna" para revisar la totalidad de los registros cambiados

In [None]:
print(f"Cantidad de datos de tipo float en la columna 'Weight': {cantidad_float}")
print(f"Cantidad de valores NaN en la columna 'Weight': {cantidad_nan}")

Conseguir valores unicos de una columna especifica


In [None]:
print('Numero de Unicos ruts: ', ts_2010_2014['rut_completo'].unique().shape[0])

### Exportar Registro de datos modificados
* Exporta el dataframe a formato csv

Exporta el dataframe a formato csv

In [None]:
data_final.to_csv('../data_final.csv')