<div style="background-color:#000047; padding: 30px; border-radius: 10px; color: white; text-align: center;">
    <img src='https://github.com/GabiRmz2025/MGRC_Herramientas_Aplicaciones_IA_2025/blob/main/Modulo1/Figures/alinco.png?raw=1' style="height: 100px; margin-bottom: 10px;"/>
    <h1>Preprocesamiento y Análisis Exploratorio de Datos (EDA)</h1>
</div>

El **análisis exploratorio de datos (EDA, por sus siglas en inglés)** es el proceso inicial de examinar y resumir un conjunto de datos para comprender su estructura, características principales, patrones, valores atípicos y relaciones entre variables. Se utilizan técnicas estadísticas, visualizaciones y descripciones numéricas para obtener una visión general de los datos antes de aplicar modelos más complejos.



**¿Por qué es importante para la IA?**

- Permite detectar errores, inconsistencias y valores atípicos que pueden afectar el desempeño de los modelos de IA.
- Ayuda a comprender la distribución y relaciones entre variables, lo que facilita la selección de características relevantes.
- Es clave para preparar y limpiar los datos, asegurando que los algoritmos de IA trabajen con información de calidad.
- Facilita la identificación de patrones y tendencias que pueden guiar la elección del modelo o la estrategia de análisis.

Reduce el riesgo de interpretar mal los resultados, ya que proporciona contexto y conocimiento previo sobre los datos.
En resumen, el EDA es una herramienta fundamental para garantizar que los modelos de IA se construyan sobre bases sólidas y produzcan resultados confiables

### ¿Que preguntas hacernos cuando tenemos archivos en crudo?

- ¿Cuántos registros hay?
    - ¿Son demasiado pocos?
    - ¿Son muchos y no tenemos Capacidad (CPU+RAM) suficiente para procesarlo?
    
- ¿Están todas las filas completas ó tenemos campos con valores nulos?
    - En caso que haya demasiados nulos: ¿Queda el resto de información inútil?
    
- ¿Que datos son discretos y cuales continuos?
    - Muchas veces sirve obtener el tipo de datos: texto, int, double, float
    
- Si es un problema de tipo supervisado:
    - ¿Cuál es la columna de “salida”? ¿binaria, multiclase?
    - ¿Esta balanceado el conjunto salida?
    
- ¿Cuales parecen ser features importantes? ¿Cuales podemos descartar?

- ¿Siguen alguna distribución?

- ¿Hay correlación entre features (características)?

- En problemas de NLP es frecuente que existan categorías repetidas ó mal tipeadas, ó con mayusculas/minúsculas, singular y plural, por ejemplo “Abogado” y “Abogadas”, “avogado” pertenecerían todos a un mismo conjunto.

- ¿Estamos ante un problema dependiente del tiempo? Es decir un TimeSeries.

- Si fuera un problema de Visión Artificial: ¿Tenemos suficientes muestras de cada clase y variedad, para poder hacer generalizar un modelo de Machine Learning?

- ¿Cuales son los Outliers? (unos pocos datos aislados que difieren drásticamente del resto y “contaminan” ó desvían las distribuciones)
    - Podemos eliminarlos? es importante conservarlos?
    - son errores de carga o son reales?
    
- ¿Tenemos posible sesgo de datos? (por ejemplo perjudicar a clases minoritarias por no incluirlas y que el modelo de ML discrimine)


## Ejemplo

In [1]:
import pandas as pd
import numpy as np

In [2]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [4]:
df_movie = pd.read_csv('movie_metadata.csv')
df_movie.head()

Unnamed: 0,color,director_name,num_critic_for_reviews,duration,director_facebook_likes,actor_3_facebook_likes,actor_2_name,actor_1_facebook_likes,gross,genres,...,num_user_for_reviews,language,country,content_rating,budget,title_year,actor_2_facebook_likes,imdb_score,aspect_ratio,movie_facebook_likes
0,Color,James Cameron,723.0,178.0,0.0,855.0,Joel David Moore,1000.0,760505847.0,Action|Adventure|Fantasy|Sci-Fi,...,3054.0,English,USA,PG-13,237000000.0,2009.0,936.0,7.9,1.78,33000
1,Color,Gore Verbinski,302.0,169.0,563.0,1000.0,Orlando Bloom,40000.0,309404152.0,Action|Adventure|Fantasy,...,1238.0,English,USA,PG-13,300000000.0,2007.0,5000.0,7.1,2.35,0
2,Color,Sam Mendes,602.0,148.0,0.0,161.0,Rory Kinnear,11000.0,200074175.0,Action|Adventure|Thriller,...,994.0,English,UK,PG-13,245000000.0,2015.0,393.0,6.8,2.35,85000
3,Color,Christopher Nolan,813.0,164.0,22000.0,23000.0,Christian Bale,27000.0,448130642.0,Action|Thriller,...,2701.0,English,USA,PG-13,250000000.0,2012.0,23000.0,8.5,2.35,164000
4,,Doug Walker,,,131.0,,Rob Walker,131.0,,Documentary,...,,,,,,,12.0,7.1,,0


## Preprocesamiento de Datos

#### Análisis de datos Faltantes

In [5]:
df_movie_clean = df_movie.dropna()
df_movie_clean.head()

Unnamed: 0,color,director_name,num_critic_for_reviews,duration,director_facebook_likes,actor_3_facebook_likes,actor_2_name,actor_1_facebook_likes,gross,genres,...,num_user_for_reviews,language,country,content_rating,budget,title_year,actor_2_facebook_likes,imdb_score,aspect_ratio,movie_facebook_likes
0,Color,James Cameron,723.0,178.0,0.0,855.0,Joel David Moore,1000.0,760505847.0,Action|Adventure|Fantasy|Sci-Fi,...,3054.0,English,USA,PG-13,237000000.0,2009.0,936.0,7.9,1.78,33000
1,Color,Gore Verbinski,302.0,169.0,563.0,1000.0,Orlando Bloom,40000.0,309404152.0,Action|Adventure|Fantasy,...,1238.0,English,USA,PG-13,300000000.0,2007.0,5000.0,7.1,2.35,0
2,Color,Sam Mendes,602.0,148.0,0.0,161.0,Rory Kinnear,11000.0,200074175.0,Action|Adventure|Thriller,...,994.0,English,UK,PG-13,245000000.0,2015.0,393.0,6.8,2.35,85000
3,Color,Christopher Nolan,813.0,164.0,22000.0,23000.0,Christian Bale,27000.0,448130642.0,Action|Thriller,...,2701.0,English,USA,PG-13,250000000.0,2012.0,23000.0,8.5,2.35,164000
5,Color,Andrew Stanton,462.0,132.0,475.0,530.0,Samantha Morton,640.0,73058679.0,Action|Adventure|Sci-Fi,...,738.0,English,USA,PG-13,263700000.0,2012.0,632.0,6.6,2.35,24000


In [10]:
#fill con la media
df_movie['duration'].fillna(df_movie['duration'].mean(), inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_movie['duration'].fillna(df_movie['duration'].mean(), inplace=True)


In [11]:
df_movie['duration']

Unnamed: 0,duration
0,178.000000
1,169.000000
2,148.000000
3,164.000000
4,107.201074
...,...
5038,87.000000
5039,43.000000
5040,76.000000
5041,100.000000


In [12]:
#fill con una nueva categoria
df_movie['color'].fillna('unk', inplace=True)


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_movie['color'].fillna('unk', inplace=True)


#### Limpieza de los datos

In [9]:
#dirty_df = pd.read_csv('Data/dirty_data.csv')
dirty_df = pd.read_csv('dirty_data.csv') #archivo montado en el Drive de Google
dirty_df.head()

Unnamed: 0,age,birth_date,marital,people,ssn
0,24,02/12/1954,soltero,"Alfonso A,guilar",6439
1,35,05/07/1958,casado,edu6ardo Castillo,689 24 9939
2,46,01-26-1956,Soltero,jocelyn medel,306-05-2792
3,57,19xx-10-23,divorciado,VICTOR ramos _ _ _,99922a45832
4,10,02/12/0054,SOLTERO,CARLOS EDUARDO; OCHOA ARAMBULA,6439


In [13]:
dirty_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14 entries, 0 to 13
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   age         14 non-null     int64 
 1   birth_date  14 non-null     object
 2   marital     13 non-null     object
 3   people      14 non-null     object
 4   ssn         13 non-null     object
dtypes: int64(1), object(4)
memory usage: 692.0+ bytes


#### Algunas funciones útiles para limpieza de datos

In [14]:
import string

In [15]:
string.punctuation

'!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'

In [18]:
# remover signos de puntuación
def remove_punctuation(x):
    try:
        x = ''.join(ch for ch in x if ch not in string.punctuation)
    except:
        print(f'{x} no es una cadena de caracteres')
        pass
    return x


In [19]:
#probando la función
s = 'Alfonso A,guilar	'
remove_punctuation(s)

'Alfonso Aguilar\t'

In [33]:
def remove_digits(x):
    try:
        x=''.join(ch for ch in x if ch not in string.digits)
    except:
        print(f'{x} no es una cadena de caracteres')
        pass
    return x

In [34]:
#probando la función
s = 'A1lfo6nso A,gui3lar	'
remove_digits(s)

'Alfonso A,guilar\t'

In [35]:
# remover espacios en blanco
def remove_whitespace(x):
    try:
        x=' '.join(x.split())
    except:
        pass
    return x

# convertir a minisculas
def lower_text(x):
    try:
        x = x.lower()
    except:
        pass
    return x

#convertir a mayusculas
def upper_text(x):
    try:
        x = x.upper()
    except:
        pass
    return x

# Función que convierta a mayúsculas la primera letra
def capitalize_text(x):
    try:
        x = x.capitalize()
    except:
        pass
    return x
# reemplazar texto
def replace_text(x,to_replace, replacement):
    try:
        x = x.replace(to_replace, replacement)
    except:
        pass
    return x


In [25]:
# Probar en las columnas del dataset
dirty_df['people']

Unnamed: 0,people
0,"Alfonso A,guilar"
1,edu6ardo Castillo
2,jocelyn medel
3,VICTOR ramos _ _ _
4,CARLOS EDUARDO; OCHOA ARAMBULA
5,JOSE MANUEL OCHOA CARDENAS
6,JUAN MARIO; OCHOA NAVARRO
7,LUIS ONTANEDA MIJARES
8,EDUARDO OMAR ORTEGA RAMIREZ
9,JOSE ALEJANDRO& PRECIADO GANDARA


In [28]:
dirty_df['people'].apply(remove_punctuation)

Unnamed: 0,people
0,Alfonso Aguilar
1,edu6ardo Castillo
2,jocelyn medel
3,VICTOR ramos
4,CARLOS EDUARDO OCHOA ARAMBULA
5,JOSE MANUEL OCHOA CARDENAS
6,JUAN MARIO OCHOA NAVARRO
7,LUIS ONTANEDA MIJARES
8,EDUARDO OMAR ORTEGA RAMIREZ
9,JOSE ALEJANDRO PRECIADO GANDARA


In [29]:
dirty_df['people'].apply(remove_punctuation).apply(remove_digits).apply(remove_whitespace).apply(lower_text).apply(upper_text).apply(capitalize_text)

Unnamed: 0,people
0,Alfonso aguilar
1,Eduardo castillo
2,Jocelyn medel
3,Victor ramos
4,Carlos eduardo ochoa arambula
5,Jose manuel ochoa cardenas
6,Juan mario ochoa navarro
7,Luis ontaneda mijares
8,Eduardo omar ortega ramirez
9,Jose alejandro preciado gandara


In [31]:
dirty_df['birth_date'].apply(replace_text, args=('-','/')).apply(replace_text,args=('?','/'))

Unnamed: 0,birth_date
0,02/12/1954
1,05/07/1958
2,01/26/1956
3,19xx/10/23
4,02/12/0054
5,05/07/1958
6,01/26/1956
7,19xx/10/23
8,02/12/1954
9,05/07/1958


### Practica 2: Agregar las funciones en la librería de clase HyAIA

En la Practica 1 se creo un archivo .py donde se pueda almacenar la clas HyAIA, ahora agrega nuevos métodos para la limpieza

## Reporte de Calidad de Datos

Un **reporte de calidad de datos** es un documento o análisis que evalúa el estado y las características de un conjunto de datos antes de su uso en proyectos analíticos o de inteligencia artificial. Este reporte identifica problemas, inconsistencias y riesgos asociados a los datos, ayudando a tomar decisiones sobre limpieza, transformación y uso adecuado.

**Aspectos que suele incluir:**

- Valores faltantes: Cantidad y porcentaje de datos ausentes por columna
- Valores presentes: Cantidad y porcentaje de datos presentes por columna
- Duplicados (Registros repetidos en el dataset).
- Tipos de datos: Verificación de formatos (numérico, texto, fecha, etc.).
- Distribución de variables: Estadísticas descriptivas (media, mediana, moda, etc.).
- Valores atípicos: Detección de datos fuera de rango o inusuales.
- Errores de formato: Problemas en fechas, números, codificación, etc.

Un reporte de calidad de datos permite detectar y corregir problemas antes de entrenar modelos de IA, asegurando resultados más confiables y evitando sesgos o errores en el análisis.

En este apartado crearemos nuestros reportes de calidad de datos

In [36]:
#Dataset de paises
#df_countries = pd.read_csv('Data/countries.csv', sep=';')
df_countries = pd.read_csv('countries.csv', sep=';')

In [37]:
df_countries.head()

Unnamed: 0,alpha_2,alpha_3,area,capital,continent,currency_code,currency_name,eqivalent_fips_code,fips,geoname_id,languages,name,neighbours,numeric,phone,population,postal_code_format,postal_code_regex,tld
0,AD,AND,468.0,Andorra la Vella,EU,EUR,Euro,,AN,3041565,ca,Andorra,"ES,FR",20,376,84000,AD###,^(?:AD)*(\d{3})$,.ad
1,AE,ARE,82880.0,Abu Dhabi,AS,AED,Dirham,,AE,290557,"ar-AE,fa,en,hi,ur",United Arab Emirates,"SA,OM",784,971,4975593,,,.ae
2,AF,AFG,647500.0,Kabul,AS,AFN,Afghani,,AF,1149361,"fa-AF,ps,uz-AF,tk",Afghanistan,"TM,CN,IR,TJ,PK,UZ",4,93,29121286,,,.af
3,AG,ATG,443.0,St. John's,,XCD,Dollar,,AC,3576396,en-AG,Antigua and Barbuda,,28,+1-268,86754,,,.ag
4,AI,AIA,102.0,The Valley,,XCD,Dollar,,AV,3573511,en-AI,Anguilla,,660,+1-264,13254,,,.ai


In [62]:
def dqr(data):

    #% Lista de variables de la base de datos
    columns = pd.DataFrame(list(data.columns.values), columns=['Columns_Names'],
                           index=list(data.columns.values))

    #Lista de tipos de datos del dataframe
    data_dtypes = pd.DataFrame(data.dtypes, columns=['Dtypes'])

    #Lista de valores presentes
    present_values = pd.DataFrame(data.count(), columns=['Present_values'])

    #Lista de valores missing (Valores faltantes/nulos nan)
    missing_values = pd.DataFrame(data.isnull().sum(), columns=['Missing_values'])

    #Valores unicos de las columnas
    unique_values = pd.DataFrame(columns=['Unique_values'])
    for col in list(data.columns.values):
        unique_values.loc[col] = [data[col].nunique()]

    # INFORMACIÓN ESTADÍSTICA

    #Lista de valores máximos
    max_values = pd.DataFrame(columns=['Max_values'])
    for col in list(data.columns.values):
      try:
          max_values.loc[col] = [data[col].max()]
      except:
          max_values.loc[col] = ['NA']

    #Lista de valores mínimos
    min_values = pd.DataFrame(columns=['Min_values'])
    for col in list(data.columns.values):
      try:
          min_values.loc[col] = [data[col].min()]
      except:
          min_values.loc[col] = ['NA']

    #Lista de valores con su desviación estandar

    #Lista de valores con los percentiles

    #Lista de valores con la media

    return columns.join(data_dtypes).join(present_values).join(missing_values).join(unique_values)

In [50]:
dqr(df_countries)

Unnamed: 0,Columns_Names,Dtypes,Present_values,Missing_values,Unique_values,Max_values,Min_values
alpha_2,alpha_2,object,251,1,251,,
alpha_3,alpha_3,object,252,0,252,ZWE,ABW
area,area,float64,252,0,248,17100000.0,0.0
capital,capital,object,246,6,244,,
continent,continent,object,210,42,6,,
currency_code,currency_code,object,251,1,155,,
currency_name,currency_name,object,251,1,82,,
eqivalent_fips_code,eqivalent_fips_code,object,1,251,1,,
fips,fips,object,249,3,249,,
geoname_id,geoname_id,int64,252,0,252,8505033,49518


In [63]:
class HyAIA:
    def __init__(self, df):
        self.data = df
        self.columns = df.columns
        self.dqr = self.get_dqr()

    def dqr(self):
        """
        Método para un reporte de calidad de datos
        """
        return None

In [51]:
df_countries['capital'].nunique()

244

In [53]:
df_countries['capital'].unique()

array(['Andorra la Vella', 'Abu Dhabi', 'Kabul', "St. John's",
       'The Valley', 'Tirana', 'Yerevan', 'Luanda', nan, 'Buenos Aires',
       'Pago Pago', 'Vienna', 'Canberra', 'Oranjestad', 'Mariehamn',
       'Baku', 'Sarajevo', 'Bridgetown', 'Dhaka', 'Brussels',
       'Ouagadougou', 'Sofia', 'Manama', 'Bujumbura', 'Porto-Novo',
       'Gustavia', 'Hamilton', 'Bandar Seri Begawan', 'Sucre', 'Brasilia',
       'Nassau', 'Thimphu', 'Gaborone', 'Minsk', 'Belmopan', 'Ottawa',
       'West Island', 'Kinshasa', 'Bangui', 'Brazzaville', 'Bern',
       'Yamoussoukro', 'Avarua', 'Santiago', 'Yaounde', 'Beijing',
       'Bogota', 'San Jose', 'Havana', 'Praia', ' Willemstad',
       'Flying Fish Cove', 'Nicosia', 'Prague', 'Berlin', 'Djibouti',
       'Copenhagen', 'Roseau', 'Santo Domingo', 'Algiers', 'Quito',
       'Tallinn', 'Cairo', 'El-Aaiun', 'Asmara', 'Madrid', 'Addis Ababa',
       'Helsinki', 'Suva', 'Stanley', 'Palikir', 'Torshavn', 'Paris',
       'Libreville', 'London', "St. Geor

In [54]:
df_countries['continent'].unique()

array(['EU', 'AS', nan, 'AF', 'AN', 'SA', 'OC'], dtype=object)

## Tarea 1: Modificación de la librería de clase

Tomando en cuenta la libreria creada en clase HyAIA, y la función de reporte de calidad de datos `dqr()`, realizar lo siguiente:

Modificar la función dqr() para tener lo siguiente:

>1.- Modificar la función dqr() para que en el reporte se agregue una columna que sea booleana boolena para representar si una columna es categórica ('Is_categorical') ('Is_categorical' True-->col categorica, False ---> numérica)

>2.- Modificar la función dqr() para que en el reporte se agregue una columna con las categorías de las columnas (valores unicos) que resulten ser categóricas (si las categorias > 10, no agregar esas categorias)

>3.- Aplicar el análisis estadístico de las columnas creadas (max, min, mean, std) solo para las columnas que sean numéricas ('Is_categorical' == False)


### EDA utilizando el reporte de calidad de datos

In [None]:
hy_countries = HyAIA(df_countries)

In [None]:
#Dataframe a analisar
hy_countries.data.head()

In [None]:
# reporte de calidad de datos
dqr(hy_countries)

In [None]:
from HAIA import HyAIA as hy

In [None]:
hy_countries = hy(df_countries)

In [None]:
#columnas categoricas
hy_countries.categoricos_columns

In [None]:
# Limpieza de datos:rellenar columnas categoricas con etiqueta ('unk') representando una nueva categoría
for col_cat in hy_countries.categoricos_columns:
    hy_countries.data[col_cat].fillna('unk', inplace=True)


In [None]:
# Obtener nuevamente el reporte de calidad de datos
hy_countries.dqr = hy_countries.get_dqr()
hy_countries.dqr

In [None]:
#eliminar la columna con mayor numero de valores faltantes
hy_countries.data.drop('eqivalent_fips_code', axis=1, inplace=True)

In [None]:
hy_countries.data.head()

### Iniciando el análisis

In [None]:
# alpha_3 representa el tag del país
hy_countries.data[hy_countries.data['alpha_3']=='MEX']

In [None]:
#Cuáles son las lenguas de los países?
hy_countries.data['languages'].unique()

In [None]:
#Buscar cuales son los países con lengua español en el dataset
df_countries_es = hy_countries.data[hy_countries.data['languages'].str.contains('es')]
df_countries_es.head()

In [None]:
df_countries_es.shape

In [None]:
df_countries_es_10 = df_countries_es.sort_values(by='population', ascending=False).head(10)

In [None]:
# Obtener el top 10 de países con mayor población que hablan Español
df_countries_es_10.set_index('alpha_3')[['population']].plot(kind='bar')

In [None]:
#Obtener el top 10 de paises con mayor superficie con habla en español
df_countries_es_10.set_index('alpha_3')[['area']].plot(kind='bar')

In [None]:
#Cuáles son los países con area mayor a 200000?
df_countries_20 = hy_countries.data[hy_countries.data['area']>200000]
df_countries_20.head()

In [None]:
#Gráfico de los 20 países con mayor superficie
df_countries_20.set_index('alpha_3')['area'].plot(kind='bar', figsize=(20,10))

In [None]:
df_countries_es[df_countries_es['alpha_3']=='VEN']


In [None]:
# Paises que tienen frontera con Mexico?
df_countries_es[df_countries_es['neighbours'].str.contains('CO')]


In [None]:
# Paises que tienen frontera con Colombia, Venezuela, Brazil, Argentina?

## Práctica 3

1. ¿cuáles son los países que tienen como currency name == Peso?
2. ¿cuáles son los 5 países más grandes (área) que tienen como currency name == Peso ?
3. ¿cuáles son los 5 países más grandes (en población) que tienen como currency name == Peso ?
4. ¿Cuáles son los países y currency code, con currency name== Peso?

In [None]:
df_countries_es.groupby('currency_name')['name'].value_counts()

In [None]:
#1.-

df_countries_es_peso =df_countries_es[df_countries_es['currency_name']=='Peso']
df_countries_es_peso

In [None]:
#2.-
df_countries_es_peso.set_index('alpha_3').
sort_values(by='area', ascending=False)['area'].plot(kind='bar', figsize=(20,10))


In [None]:
# Cuáles son los países que tienen más de 5 paises con frontera
hy_countries.data.head()

In [None]:
str_paises = 'ES,FR'.split(',')

In [None]:
len(str_paises)

In [None]:
def conteo_frontera(x):
    str_x=[]
    try:
        str_x = x.split(',')
    except:
        pass
    return len(str_x)


In [None]:
hy_countries_front = hy_countries.data.set_index('name')['neighbours'].apply(conteo_frontera)
hy_countries_front

In [None]:
hy_countries_front.sort_values(ascending=False).head(30).plot(kind='bar', figsize=(10,8))