<div style="background-color:#000047; padding: 30px; border-radius: 10px; color: white; text-align: center;">
    <img src='Figures/alinco.png' style="height: 100px; margin-bottom: 10px;"/>
    <h1>Preprocesamiento y Análisis Exploratorio de Datos (EDA)</h1>
</div>

El **análisis exploratorio de datos (EDA, por sus siglas en inglés)** es el proceso inicial de examinar y resumir un conjunto de datos para comprender su estructura, características principales, patrones, valores atípicos y relaciones entre variables. Se utilizan técnicas estadísticas, visualizaciones y descripciones numéricas para obtener una visión general de los datos antes de aplicar modelos más complejos.



**¿Por qué es importante para la IA?**

- Permite detectar errores, inconsistencias y valores atípicos que pueden afectar el desempeño de los modelos de IA.
- Ayuda a comprender la distribución y relaciones entre variables, lo que facilita la selección de características relevantes.
- Es clave para preparar y limpiar los datos, asegurando que los algoritmos de IA trabajen con información de calidad.
- Facilita la identificación de patrones y tendencias que pueden guiar la elección del modelo o la estrategia de análisis.

Reduce el riesgo de interpretar mal los resultados, ya que proporciona contexto y conocimiento previo sobre los datos.
En resumen, el EDA es una herramienta fundamental para garantizar que los modelos de IA se construyan sobre bases sólidas y produzcan resultados confiables

### ¿Que preguntas hacernos cuando tenemos archivos en crudo?

- ¿Cuántos registros hay?
    - ¿Son demasiado pocos?
    - ¿Son muchos y no tenemos Capacidad (CPU+RAM) suficiente para procesarlo?
    
- ¿Están todas las filas completas ó tenemos campos con valores nulos?
    - En caso que haya demasiados nulos: ¿Queda el resto de información inútil?
    
- ¿Que datos son discretos y cuales continuos?
    - Muchas veces sirve obtener el tipo de datos: texto, int, double, float
    
- Si es un problema de tipo supervisado:
    - ¿Cuál es la columna de “salida”? ¿binaria, multiclase?
    - ¿Esta balanceado el conjunto salida?
    
- ¿Cuales parecen ser features importantes? ¿Cuales podemos descartar?

- ¿Siguen alguna distribución?

- ¿Hay correlación entre features (características)?

- En problemas de NLP es frecuente que existan categorías repetidas ó mal tipeadas, ó con mayusculas/minúsculas, singular y plural, por ejemplo “Abogado” y “Abogadas”, “avogado” pertenecerían todos a un mismo conjunto.

- ¿Estamos ante un problema dependiente del tiempo? Es decir un TimeSeries.

- Si fuera un problema de Visión Artificial: ¿Tenemos suficientes muestras de cada clase y variedad, para poder hacer generalizar un modelo de Machine Learning?

- ¿Cuales son los Outliers? (unos pocos datos aislados que difieren drásticamente del resto y “contaminan” ó desvían las distribuciones)
    - Podemos eliminarlos? es importante conservarlos?
    - son errores de carga o son reales?
    
- ¿Tenemos posible sesgo de datos? (por ejemplo perjudicar a clases minoritarias por no incluirlas y que el modelo de ML discrimine)


## Ejemplo

In [None]:
import pandas as pd
import numpy as np

In [None]:
df_movie = pd.read_csv('Data/movie_metadata.csv')
df_movie.head()

## Preprocesamiento de Datos

#### Análisis de datos Faltantes

In [None]:
df_movie_clean = df_movie.dropna()
df_movie_clean.head()

In [None]:
#fill con la media


In [None]:
#fill con una nueva categoria


#### Limpieza de los datos

In [None]:
dirty_df = pd.read_csv('Data/dirty_data.csv')
dirty_df.head()

#### Algunas funciones útiles para limpieza de datos

In [None]:
import string

In [None]:
# remover signos de puntuación
def remove_punctuation(x):
    try:
        x = ''.join(ch for ch in x if ch not in string.punctuation)
    except:
        print(f'{x} no es una cadena de caracteres')
        pass
    return x
        

In [None]:
#probando la función


In [None]:
def remove_digits(x):
    try:
        x=''.join(ch for ch in x if ch not in string.digits)
    except:
        print(f'{x} no es una cadena de caracteres')
        pass
    return x

In [None]:
#probando la función


In [None]:
# remover espacios en blanco
def remove_whitespace(x):
    try:
        x=' '.join(x.split())
    except:
        pass
    return x

# convertir a minisculas
def lower_text(x):
    try:
        x = x.lower()
    except:
        pass
    return x

#convertir a mayusculas
def upper_text(x):
    try:
        x = x.upper()
    except:
        pass
    return x

# Función que convierta a mayúsculas la primera letra
def capitalize_text(x):
    try:
        x = x.capitalize()
    except:
        pass
    return x
# reemplazar texto
def replace_text(x,to_replace, replacement):
    try:
        x = x.replace(to_replace, replacement)
    except:
        pass
    return x


In [None]:
# Probar en las columnas del dataset


In [None]:
dirty_df

### Practica 2: Agregar las funciones en la librería de clase HyAIA

En la Practica 1 se creo un archivo .py donde se pueda almacenar la clas HyAIA, ahora agrega nuevos métodos para la limpieza

## Reporte de Calidad de Datos

Un **reporte de calidad de datos** es un documento o análisis que evalúa el estado y las características de un conjunto de datos antes de su uso en proyectos analíticos o de inteligencia artificial. Este reporte identifica problemas, inconsistencias y riesgos asociados a los datos, ayudando a tomar decisiones sobre limpieza, transformación y uso adecuado.

**Aspectos que suele incluir:**

- Valores faltantes: Cantidad y porcentaje de datos ausentes por columna
- Valores presentes: Cantidad y porcentaje de datos presentes por columna
- Duplicados (Registros repetidos en el dataset).
- Tipos de datos: Verificación de formatos (numérico, texto, fecha, etc.).
- Distribución de variables: Estadísticas descriptivas (media, mediana, moda, etc.).
- Valores atípicos: Detección de datos fuera de rango o inusuales.
- Errores de formato: Problemas en fechas, números, codificación, etc.

Un reporte de calidad de datos permite detectar y corregir problemas antes de entrenar modelos de IA, asegurando resultados más confiables y evitando sesgos o errores en el análisis.

En este apartado crearemos nuestros reportes de calidad de datos

In [None]:
#Dataset de paises
df_countries = pd.read_csv('Data/countries.csv', sep=';')

In [None]:
df_countries.head()

In [None]:
def dqr(data):
    
    #% Lista de variables de la base de datos
    columns = pd.DataFrame(list(data.columns.values), columns=['Columns_Names'], 
                           index=list(data.columns.values))
    
    #Lista de tipos de datos del dataframe
    data_dtypes = pd.DataFrame(data.dtypes, columns=['Dtypes'])
    
    #Lista de valores presentes
    present_values = pd.DataFrame(data.count(), columns=['Present_values'])
    
    #Lista de valores missing (Valores faltantes/nulos nan)
    missing_values = pd.DataFrame(data.isnull().sum(), columns=['Missing_values'])
    
    #Valores unicos de las columnas
    unique_values = pd.DataFrame(columns=['Unique_values'])
    for col in list(data.columns.values):
        unique_values.loc[col] = [data[col].nunique()]
    
    # Información estadística
    #Lista de valores máximos
    
    #Lista de valores mínimos
    
    #Lista de valores con su desviación estandar
    
    #Lista de valores con los percentiles
    
    #Lista de valores con la media
       
    return columns.join(data_dtypes).join(present_values).join(missing_values).join(unique_values)

In [None]:
class HyAIA:
    def __init__(self, df):
        self.data = df
        self.columns = df.columns
        self.dqr = self.get_dqr()

    def dqr(self):
        """
        Método para un reporte de calidad de datos
        """
        return None

## Tarea 1: Modificación de la librería de clase

Tomando en cuenta la libreria creada en clase HyAIA, y la función de reporte de calidad de datos `dqr()`, realizar lo siguiente:

Modificar la función dqr() para tener lo siguiente:

>1.- Modificar la función dqr() para que en el reporte se agregue una columna que sea booleana boolena para representar si una columna es categórica ('Is_categorical') ('Is_categorical' True-->col categorica, False ---> numérica)

>2.- Modificar la función dqr() para que en el reporte se agregue una columna con las categorías de las columnas (valores unicos) que resulten ser categóricas (si las categorias > 10, no agregar esas categorias)

>3.- Aplicar el análisis estadístico de las columnas creadas (max, min, mean, std) solo para las columnas que sean numéricas ('Is_categorical' == False)


### EDA utilizando el reporte de calidad de datos

In [None]:
hy_countries = HyAIA(df_countries)

In [None]:
#Dataframe a analisar
hy_countries.data.head()

In [None]:
# reporte de calidad de datos
dqr(hy_countries)

In [None]:
from HAIA import HyAIA as hy

In [None]:
hy_countries = hy(df_countries)

In [None]:
#columnas categoricas
hy_countries.categoricos_columns

In [None]:
# Limpieza de datos:rellenar columnas categoricas con etiqueta ('unk') representando una nueva categoría 
for col_cat in hy_countries.categoricos_columns:
    hy_countries.data[col_cat].fillna('unk', inplace=True)
    

In [None]:
# Obtener nuevamente el reporte de calidad de datos
hy_countries.dqr = hy_countries.get_dqr()
hy_countries.dqr

In [None]:
#eliminar la columna con mayor numero de valores faltantes
hy_countries.data.drop('eqivalent_fips_code', axis=1, inplace=True)

In [None]:
hy_countries.data.head()

### Iniciando el análisis

In [None]:
# alpha_3 representa el tag del país
hy_countries.data[hy_countries.data['alpha_3']=='MEX']

In [None]:
#Cuáles son las lenguas de los países?
hy_countries.data['languages'].unique()

In [None]:
#Buscar cuales son los países con lengua español en el dataset
df_countries_es = hy_countries.data[hy_countries.data['languages'].str.contains('es')]
df_countries_es.head()

In [None]:
df_countries_es.shape

In [None]:
df_countries_es_10 = df_countries_es.sort_values(by='population', ascending=False).head(10)

In [None]:
# Obtener el top 10 de países con mayor población que hablan Español
df_countries_es_10.set_index('alpha_3')[['population']].plot(kind='bar')

In [None]:
#Obtener el top 10 de paises con mayor superficie con habla en español
df_countries_es_10.set_index('alpha_3')[['area']].plot(kind='bar')

In [None]:
#Cuáles son los países con area mayor a 200000?
df_countries_20 = hy_countries.data[hy_countries.data['area']>200000]
df_countries_20.head()

In [None]:
#Gráfico de los 20 países con mayor superficie
df_countries_20.set_index('alpha_3')['area'].plot(kind='bar', figsize=(20,10))

In [None]:
df_countries_es[df_countries_es['alpha_3']=='VEN']


In [None]:
# Paises que tienen frontera con Mexico?
df_countries_es[df_countries_es['neighbours'].str.contains('CO')]


In [None]:
# Paises que tienen frontera con Colombia, Venezuela, Brazil, Argentina?

## Práctica 3

1. ¿cuáles son los países que tienen como currency name == Peso?
2. ¿cuáles son los 5 países más grandes (área) que tienen como currency name == Peso ?
3. ¿cuáles son los 5 países más grandes (en población) que tienen como currency name == Peso ?
4. ¿Cuáles son los países y currency code, con currency name== Peso?

In [None]:
df_countries_es.groupby('currency_name')['name'].value_counts()

In [None]:
#1.-

df_countries_es_peso =df_countries_es[df_countries_es['currency_name']=='Peso']
df_countries_es_peso

In [None]:
#2.- 
df_countries_es_peso.set_index('alpha_3').
sort_values(by='area', ascending=False)['area'].plot(kind='bar', figsize=(20,10))


In [None]:
# Cuáles son los países que tienen más de 5 paises con frontera
hy_countries.data.head()

In [None]:
str_paises = 'ES,FR'.split(',')

In [None]:
len(str_paises)

In [None]:
def conteo_frontera(x):
    str_x=[]
    try:
        str_x = x.split(',')
    except:
        pass
    return len(str_x)


In [None]:
hy_countries_front = hy_countries.data.set_index('name')['neighbours'].apply(conteo_frontera)
hy_countries_front

In [None]:
hy_countries_front.sort_values(ascending=False).head(30).plot(kind='bar', figsize=(10,8))