<a href="https://colab.research.google.com/github/cristiandarioortegayubro/BDS/blob/main/modulo.03/bds_pipeline_000_01.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<p align="center">
<img src="https://github.com/cristiandarioortegayubro/BDS/blob/main/images/Logo%20Pandas.png?raw=true">
</p>


 # **<font color="DeepPink">El análisis preliminar del conjunto de datos</font>**

<p align="justify">
👀 El análisis preliminar de datos, también conocido como exploratorio o inicial, es el proceso de examinar y comprender los datos en una etapa temprana de un proyecto de análisis o investigación. Este análisis se realiza antes de aplicar técnicas más avanzadas o modelos estadísticos y tiene como objetivo principal obtener una comprensión básica de los datos y detectar posibles patrones, tendencias, anomalías o problemas que puedan influir en el análisis posterior.
<br><br>
Algunas de las actividades comunes en el análisis preliminar de datos incluyen:
<br><br>

1. **Exploración de datos:** Revisión de la estructura y características de los datos, como el número de variables, tipos de datos, rangos de valores y la presencia de valores faltantes.

2. **Resumen estadístico:** Cálculo de estadísticas descriptivas básicas, como la media, la mediana, la desviación estándar y los percentiles, para comprender la distribución de los datos y la presencia de valores atípicos.

3. **Visualización de datos:** Creación de gráficos y visualizaciones para representar los datos de manera visual, como histogramas, gráficos de barras, gráficos de dispersión y diagramas de caja, con el fin de identificar patrones o relaciones entre variables.

4. **Identificación de problemas:** Detección de valores atípicos, datos faltantes, errores de entrada o inconsistencias en los datos que puedan afectar la calidad del análisis.

5. **Exploración de relaciones:** Investigación de posibles relaciones o correlaciones entre variables para generar hipótesis que puedan ser probadas más adelante.

<br>
<p align="justify">
El análisis preliminar de datos es una fase crítica en cualquier proyecto de análisis de datos, ya que sienta las bases para el análisis posterior y puede ayudar a guiar decisiones sobre qué técnicas analíticas son más apropiadas para aplicar. Además, permite a los analistas familiarizarse con los datos y comprender su contexto antes de embarcarse en análisis más complejos.

 # **<font color="DeepPink">Primeros pasos</font>**

<p align="justify">
👀 En este Colab veremos los pasos necesarios antes de que se lleve a cabo cualquier modelo de aprendizaje automático, supervisado o no supervisado.<br><br> Estos pasos necesarios implican:
</p>

* Cargar los datos;
* Observar las variables en el conjunto de datos, en particular, diferenciar entre variables numéricas y categóricas, que necesitan un procesamiento previo diferente en la mayoría de los flujos de trabajo (Pipeline) de aprendizaje automático;
* Visualizar la distribución de las variables para obtener información del conjunto de datos.

<p align="justify"> 👀 Armamos nuestro <code>DataFrame</code> con <code>Pandas</code>:  </p>

In [1]:
import numpy as np
import pandas as pd

❤ https://numpy.org ❤ https://pandas.pydata.org


<p align="justify">
👀 Vamos a trabajar con un conjunto de datos correspondiente a un censo. La extracción de la información fue realizada por Barry Becker de la base de datos del censo de 1994 de Estados Unidos. Se extrajo un conjunto de registros razonablemente limpios, no del todo.
<br><br>
Este conjunto de datos se utiliza para generar un modelo de predicción que pueda determinar si una persona gana más de 50K al año, en virtud de sus caracteristicas. El área de estudio es social económica, y a continuación se hace una descripción de cada columna del conjunto de datos.
</p>

Las columnas son:

- Edad - Age
- Clase de Trabajo - Workclass
- Educacion - Education
- Educacion numerica - Education num
- Estado civil - Marital status
- Ocupacion - Occupation
- Relacion - Relationship
- Raza - Race
- Sexo - Sex
- Ganancia de capital - Capital gain
- Perdida de capital - Capital loss
- Horas por semana - Hours per week
- Pais nativo - Native country
- Clase - Class

In [2]:
adult_census = pd.read_csv("https://raw.githubusercontent.com/cristiandarioortegayubro/BDS/main/datasets/adult_census.csv")

<p align="justify"> 👀 Visualizamos nuestro <code>DataFrame</code>:  </p>

In [3]:
adult_census

Unnamed: 0,age,workclass,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loss,hours-per-week,native-country,class
0,25,Private,11th,7,Never-married,Machine-op-inspct,Own-child,Black,Male,0,0,40,United-States,<=50K
1,38,Private,HS-grad,9,Married-civ-spouse,Farming-fishing,Husband,White,Male,0,0,50,United-States,<=50K
2,28,Local-gov,Assoc-acdm,12,Married-civ-spouse,Protective-serv,Husband,White,Male,0,0,40,United-States,>50K
3,44,Private,Some-college,10,Married-civ-spouse,Machine-op-inspct,Husband,Black,Male,7688,0,40,United-States,>50K
4,18,?,Some-college,10,Never-married,?,Own-child,White,Female,0,0,30,United-States,<=50K
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
48837,27,Private,Assoc-acdm,12,Married-civ-spouse,Tech-support,Wife,White,Female,0,0,38,United-States,<=50K
48838,40,Private,HS-grad,9,Married-civ-spouse,Machine-op-inspct,Husband,White,Male,0,0,40,United-States,>50K
48839,58,Private,HS-grad,9,Widowed,Adm-clerical,Unmarried,White,Female,0,0,40,United-States,<=50K
48840,22,Private,HS-grad,9,Never-married,Adm-clerical,Own-child,White,Male,0,0,20,United-States,<=50K


<p align="justify">
✅ El objetivo con estos datos es predecir si una persona gana más de <code>50K</code> al año a partir de las siguientes variables (columnas), tales como por ejemplo:
</p>

- la edad,
- el empleo,
- la educación,
- la información familiar,
- etc.



 # **<font color="DeepPink">Las variables (columnas) en el conjunto de datos</font>**

<p align="justify">
Los datos se almacenan en un <code>DataFrame</code> de <code>Pandas</code>. Esta estructura de datos ya sabemos que está compuesta por 2 dimensiones, el indice (las filas) y las columnas. Este tipo de datos también se lo conoce como datos tabulares. <br><br> ◼ Cada fila representa una <code>muestra</code> estadísticamente hablando. En el campo del aprendizaje automático, o de las
estadísticas descriptivas, los términos equivalentes de uso común son <code>registros</code>,
<code>instancias</code> u <code>observaciones</code>. <br><br> ◼ Cada columna representa un tipo de información que se ha recopilado y se llamado <code>característica</code>. En el campo del aprendizaje automático, o de las estadísticas descriptivas, los términos equivalentes de uso común son <code>variables</code>, <code>atributos</code> o
<code>covariables</code>.<br><br> 👀 Muy importante recordar estos conceptos. </p>

In [4]:
adult_census.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 48842 entries, 0 to 48841
Data columns (total 14 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   age             48842 non-null  int64 
 1   workclass       48842 non-null  object
 2   education       48842 non-null  object
 3   education-num   48842 non-null  int64 
 4   marital-status  48842 non-null  object
 5   occupation      48842 non-null  object
 6   relationship    48842 non-null  object
 7   race            48842 non-null  object
 8   sex             48842 non-null  object
 9   capital-gain    48842 non-null  int64 
 10  capital-loss    48842 non-null  int64 
 11  hours-per-week  48842 non-null  int64 
 12  native-country  48842 non-null  object
 13  class           48842 non-null  object
dtypes: int64(5), object(9)
memory usage: 5.2+ MB


<p align="justify">
👀 La columna llamada <code>class</code> es nuestra variable objetivo (es decir, la variable que queremos predecir, y la que pertenece a modelos de aprendizaje supervisado). <br><br>Las dos clases posibles son los valores <=50K (ingresos bajos) y los valores >50K (ingresos altos). El problema de predicción resultante es, por lo tanto, un problema de clasificación binaria, ya que la clase tiene solo dos valores posibles. Usaremos las columnas sobrantes (cualquier columna que no sea <code>class</code>) como vector de características para nuestro modelo de aprendizaje automático supervisado, nuestro problema de clasificación binaria.
</p>


<p align="justify"> 👀 Por este motivo, a un objeto denominado <code>target_class</code> le asignamos el nombre de la variable objetivo del  <code>DataFrame</code>, y luego, vamos a contar cuantos valores tiene la variable de cada clase:  </p>

In [5]:
target_column = "class"

<p align="justify">
👀 Ahora vemos cuantas clases tiene la variable objetivo, esto lo hacemos el método de <code>Pandas</code> denominado <code>value_counts()</code>:

In [6]:
adult_census[target_column].value_counts()

 <=50K    37155
 >50K     11687
Name: class, dtype: int64

<p align="justify">
👀 Aquí vemos que las clases están ligeramente desequilibradas, lo que significa que hay más muestras de una clase en comparación con la otra. Es decir, tenemos muchas más muestras con valores correspondiente a la clase <code><=50K</code> que con valores de clase <code>>50K</code>. El desequilibrio de clases ocurre a menudo en la práctica y es muy probable que se necesiten técnicas especiales al construir un modelo predictivo que corrijan este problema, trantando de balancear las clases, o que las clases de la variable desbalanceada tengan los mismos "pesos".<br><br>Además, este <code>DataFrame</code> contiene datos numéricos y categóricos, como sucede generalmente con cualquier conjunto de datos que utilicemos. Los valores numéricos toman valores continuos, como por ejemplo la <code>edad</code> y los valores categóricos pueden tener un número finito de valores, como por ejemplo, el <code>país nativo</code>.
</p>


<p align="justify">
👀 Ahora, vamos a generar una lista de valores numericos de nuestro <code>DataFrame</code>, para ello primero usamos la propiedad <code>dtypes</code> del objeto <code>Pandas</code>, para ver que columnas son numéricas:
</p>


In [7]:
adult_census.dtypes

age                int64
workclass         object
education         object
education-num      int64
marital-status    object
occupation        object
relationship      object
race              object
sex               object
capital-gain       int64
capital-loss       int64
hours-per-week     int64
native-country    object
class             object
dtype: object

<p align="justify">
👀 Ahora, hacemos la lista con los "nombres" de las columnas numéricas del <code>DataFrame</code>:
</p>


In [8]:
numerical_columns = ["age",
                     "education-num",
                     "capital-gain",
                     "capital-loss",
                     "hours-per-week"]

<p align="justify">
👀 Hacemos lo mismo para las columnas de datos categoricos, primero las vemos, luego hacemos la lista.
</p>


In [9]:
adult_census.dtypes

age                int64
workclass         object
education         object
education-num      int64
marital-status    object
occupation        object
relationship      object
race              object
sex               object
capital-gain       int64
capital-loss       int64
hours-per-week     int64
native-country    object
class             object
dtype: object

<p align="justify">
👀 Ahora, hacemos la lista con los "nombres" de las columnas categóricas del <code>DataFrame</code>:
</p>


In [10]:
categorical_columns = ["workclass",
                       "education",
                       "marital-status",
                       "occupation",
                       "relationship",
                       "race",
                       "sex",
                       "native-country"]

<p align="justify">
👀 Definimos todas las columnas, en un objeto.
</p>


In [11]:
target_column

'class'

In [12]:
all_columns = numerical_columns + categorical_columns + [target_column]

In [13]:
all_columns

['age',
 'education-num',
 'capital-gain',
 'capital-loss',
 'hours-per-week',
 'workclass',
 'education',
 'marital-status',
 'occupation',
 'relationship',
 'race',
 'sex',
 'native-country',
 'class']

<p align="justify">
👀 Visualizamos las columnas numéricas.
</p>


In [14]:
adult_census[numerical_columns]

Unnamed: 0,age,education-num,capital-gain,capital-loss,hours-per-week
0,25,7,0,0,40
1,38,9,0,0,50
2,28,12,0,0,40
3,44,10,7688,0,40
4,18,10,0,0,30
...,...,...,...,...,...
48837,27,12,0,0,38
48838,40,9,0,0,40
48839,58,9,0,0,40
48840,22,9,0,0,20


<p align="justify">
👀 Podemos comprobar el número de muestras y el número de columnas disponibles en el conjunto de datos:
</p>


In [15]:
adult_census.shape

(48842, 14)

In [16]:
print("")
print(f"El conjunto de datos contiene {adult_census.shape[0]} registros y {adult_census.shape[1]} columnas")


El conjunto de datos contiene 48842 registros y 14 columnas


<p align="justify">
👀 Podemos calcular el número de características contando el número de columnas y restando $1$, ya que una de las columnas es la variable objetivo:
</p>


In [17]:
print("")
print(f"El conjunto de datos contiene {adult_census.shape[1]-1} variables predictoras (features)")


El conjunto de datos contiene 13 variables predictoras (features)


 # **<font color="DeepPink">Inspección visual de los datos</font>**

❤ https://plotly.com/python/

In [18]:
import plotly.express as px

<p align="justify">
👀 Antes de construir un modelo predictivo, es una buena idea mirar los datos, ya que:</p>

* Tal vez la tarea que se está tratando de lograr, se pueda resolver sin  aprendizaje automático;
* Se debe verificar que la información que se necesita para la tarea, esté realmente en el conjunto de datos;
* Inspeccionar los datos es una buena manera de encontrar algo peculiar. Estas pueden surgir durante la recopilación de datos (por ejemplo, un sensor que funciona mal o valores faltantes), o por la forma en que se procesan los datos  (por ejemplo, valores limitados).

 ## **<font color="DeepPink">Variables numéricas</font>**

<p align="justify">
👀 Veamos la distribución de características individuales para obtener información sobre los datos. Podemos comenzar trazando histogramas, tenga en cuenta que esto solo funciona para características que contienen valores numéricos:
</p>


In [19]:
adult_census[numerical_columns].head()

Unnamed: 0,age,education-num,capital-gain,capital-loss,hours-per-week
0,25,7,0,0,40
1,38,9,0,0,50
2,28,12,0,0,40
3,44,10,7688,0,40
4,18,10,0,0,30


In [20]:
for i in adult_census[numerical_columns].iloc[:,[0,1]]:
  fig = px.histogram(adult_census[numerical_columns],
                     x=i,
                     title=f"Variable {str(i).capitalize()}",
                     template="gridon").update_layout(bargap=0.2)
  fig.show()

<p align="justify">
👀 Ya podemos hacer algunos comentarios sobre algunas de las variables:
</p>

* <code>Edad</code>: no hay tantos datos para la edad cuando es > a 70 años. La descripción del conjunto de datos indica que las personas jubiladas han sido filtradas.
* <code>education-num</code>: valores entre 10 y 13, difícil saber a qué corresponde sin mirar más allá, es decir, consultar a que corresponden estos valores. Tambien es importante notar el valor correspondiente a 9.


 ## **<font color="DeepPink">Variables categóricas</font>**

<p align="justify">
👀 Para variables categóricas, podemos ver la distribucion de los valores en las muestras de hombres y de mujeres:
</p>


In [21]:
adult_census.sex.value_counts()

 Male      32650
 Female    16192
Name: sex, dtype: int64

In [22]:
px.histogram(adult_census,
             x="sex",
             color="sex",
             title="Variable Sex",
             text_auto=True,
             template="gridon")

<p align="justify">
👀 Se puede observar un desequilibrio importante entre el número de muestras de hombres y el número de muestras de mujeres.<br><br>Tenga en cuenta que entrenar un modelo con este tipo de desequilibrio de datos puede causar errores de predicción desproporcionados para los grupos subrepresentados. Podemos ver una causa típica de problemas de equidad</p>.

[Problemas de equidad](https://docs.microsoft.com/en-us/azure/machine-learning/concept-fairness-ml#what-is-machine-learning-fairness)

<p align="justify">
Esto sucede si se usa de manera ingenua la implementación de un sistema basado en aprendizaje automático en un entorno de la vida real. Se recomienda la siguiente lectura...</p>

[fairlearn.org](https://fairlearn.org)

<p align="justify">
La lectura recomendada trata como obtener recursos sobre cómo cuantificar y mitigar potencialmente los problemas de equidad relacionados con la implementación de sistemas automatizados de toma de decisiones que se basan en componentes de aprendizaje automático.
<br><br>
🛑 Estudiar por qué el proceso de recopilación de datos de este conjunto de datos conduce a un desequilibrio de género tan inesperado está más allá del alcance de este Colab, pero debemos tener en cuenta que este conjunto de datos no es representativo de la población antes de sacar conclusiones basadas en sus estadísticas o predicciones de modelos entrenados.
</p>


<p align="justify">
👀 Por ejemplo, vamos a ver en la variable<code>educación</code> la cantidad de valores asignadas a cada clase, con el método <code>value_counts()</code>.

In [23]:
adult_census.education.value_counts()

 HS-grad         15784
 Some-college    10878
 Bachelors        8025
 Masters          2657
 Assoc-voc        2061
 11th             1812
 Assoc-acdm       1601
 10th             1389
 7th-8th           955
 Prof-school       834
 9th               756
 12th              657
 Doctorate         594
 5th-6th           509
 1st-4th           247
 Preschool          83
Name: education, dtype: int64

<p align="justify">
👀 Como vimos anteriormente, la distribución <code>educación-num</code> tiene dos picos claros alrededor de los valores 10 y 13. Sería razonable esperar que <code>educación-num</code> sea el número de años de educación recibida.<br><br> 👀 Ahora vemos la relación entre <code>educación</code> y <code>educación-num</code> con la función de <code>Pandas</code> denominada <code>crosstab()</code>.
</p>


<p align="justify">
En <code>Pandas</code>, la función <code>crosstab()</code> se utiliza para crear una tabla cruzada a partir de los datos que se le indican. Una tabla cruzada es una forma de resumir y visualizar la relación entre dos o más variables categóricas.


In [66]:
tabla = pd.crosstab(index = adult_census["education"],
            columns = adult_census["education-num"])
tabla

education-num,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16
education,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1
10th,0,0,0,0,0,1389,0,0,0,0,0,0,0,0,0,0
11th,0,0,0,0,0,0,1812,0,0,0,0,0,0,0,0,0
12th,0,0,0,0,0,0,0,657,0,0,0,0,0,0,0,0
1st-4th,0,247,0,0,0,0,0,0,0,0,0,0,0,0,0,0
5th-6th,0,0,509,0,0,0,0,0,0,0,0,0,0,0,0,0
7th-8th,0,0,0,955,0,0,0,0,0,0,0,0,0,0,0,0
9th,0,0,0,0,756,0,0,0,0,0,0,0,0,0,0,0
Assoc-acdm,0,0,0,0,0,0,0,0,0,0,0,1601,0,0,0,0
Assoc-voc,0,0,0,0,0,0,0,0,0,0,2061,0,0,0,0,0
Bachelors,0,0,0,0,0,0,0,0,0,0,0,0,8025,0,0,0


<p align="justify">
👀 Para cada entrada en <code>educación</code>, solo hay un único valor correspondiente en <code>educación-num</code>. Esto muestra que <code>educación</code> y <code>educación-num</code> brindan la misma información. <br><br>Por ejemplo, <code>educación-num</code> = $2$ es equivalente a <code>educación</code> = <code>1st-4th</code>. En la práctica, eso significa que podemos eliminar <code>educación-num</code> sin perder información. <br><br> 🛑 Hay que tener en cuenta que las columnas redundantes (o altamente correlacionadas) pueden ser un problema para los algoritmos de aprendizaje automático.
</p>


<p align="justify">
👀 Ahora creamos la tabla de contingencias normalizada.

In [25]:
tabla = pd.crosstab(index=adult_census["education"],
                    columns=adult_census["education-num"],
                    normalize=True)
tabla

education-num,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16
education,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1
10th,0.0,0.0,0.0,0.0,0.0,0.028439,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
11th,0.0,0.0,0.0,0.0,0.0,0.0,0.037099,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
12th,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.013452,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1st-4th,0.0,0.005057,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
5th-6th,0.0,0.0,0.010421,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
7th-8th,0.0,0.0,0.0,0.019553,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
9th,0.0,0.0,0.0,0.0,0.015478,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
Assoc-acdm,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.032779,0.0,0.0,0.0,0.0
Assoc-voc,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.042197,0.0,0.0,0.0,0.0,0.0
Bachelors,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.164305,0.0,0.0,0.0


 # **<font color="DeepPink">Creando reglas de decisión a mano</font>**

<p align="justify">
👀 Ahora podríamos crear algunas reglas escritas a mano que predijeran si alguien tiene ingresos altos o bajos. <br><br>Por ejemplo, podríamos centrarnos en la combinación de las funciones <code>horas por semana</code> y <code>edad</code>, pero vamos a reducir el análisis a $5000$ muestras.
</p>


In [26]:
n_samples_to_plot = 5000

In [27]:
px.scatter(adult_census[:n_samples_to_plot],
           x="age",
           y="hours-per-week",
           color=target_column,
           template="gridon",
           labels={"hours-per-week":"Hours per week","age":"Age","class":"Class"},
           title="Hours per week vs. Age")

<p align="justify">
👀 Los puntos muestran la distribución de <code>horas por semana</code> y <code>edad</code> en el conjunto de datos. Los puntos azules significan ingresos bajos y los puntos naranjas significan ingresos altos. <br><br> 📊 En este gráfico de dispersión, podemos intentar encontrar regiones que contengan principalmente una sola clase, de modo que podamos decidir fácilmente qué clase se debe predecir. Podríamos crear reglas escritas a mano como se muestra en el siguiente gráfico:
</p>


In [28]:
fig = px.scatter(adult_census[:n_samples_to_plot],
                 x="age",
                 y="hours-per-week",
                 color=target_column,
                 template="gridon",
                 labels={"hours-per-week":"Hours per week","age":"Age","class":"Class"},
                 title="Hours per week vs. Age")

fig.add_shape(type="rect",
              x0=15, y0=0, x1=27, y1=102,
              line=dict(color="Black",width=3))

fig.add_shape(type="rect",
              x0=27, y0=0, x1=92, y1=40,
              line=dict(color="Black",width=3))

fig.add_shape(type="rect",
              x0=27, y0=40, x1=92, y1=102,
              line=dict(color="Black",width=3))

fig.add_annotation(x=21, y=80,
                   text="<=50K",
                   showarrow=True,
                   arrowhead=2)

fig.add_annotation(x=88, y=15,
                   text="<=50K",
                   showarrow=True,
                   arrowhead=2)

fig.add_annotation(x=80, y=75,
                   text="??????",
                   showarrow=True,
                   arrowhead=2)

fig.show()

<p align="justify">
🥇 En la región donde la edad es < de 27 años (región izquierda) la predicción es de bajos ingresos. De hecho, hay muchos puntos azules y podemos ver muy pocos puntos naranjas.
<br><br>
🥈 En la región donde la edad es > de 27 años y las horas por semana son < 40 (región inferior derecha), la predicción es de bajos ingresos. De hecho, hay muchos puntos azules y algunos puntos naranjas
.<br><br>
🥉 En la región donde la edad es > de 27 años y las horas por semana son > 40 (región superior derecha), vemos una combinación de puntos azules y naranjas. Parece complicado elegir qué clase debemos predecir en esta región.

👀 Veamos...


🛑 Primero vamos a cambiar en los nombres de las columnas del <code>DataFrame</code> el guión del medio por guión bajo, porque me complica las operaciones de filtrado al interpretarlo como un operador de resta...

In [29]:
adult_census.columns = ['age', 'workclass', 'education', 'education_num', 'marital_status',
       'occupation', 'relationship', 'race', 'sex', 'capital_gain',
       'capital_loss', 'hours_per_week', 'native_country', 'class']

👀 Vemos los nombres de las columnas...


In [30]:
adult_census.columns

Index(['age', 'workclass', 'education', 'education_num', 'marital_status',
       'occupation', 'relationship', 'race', 'sex', 'capital_gain',
       'capital_loss', 'hours_per_week', 'native_country', 'class'],
      dtype='object')

Ahora filtramos por la primera región 🥇 seleccionado todas las muestras con edad menor a $27$ años... y luego vamos a ver cuantos puntos "azules" y "naranjas" tenemos en esta región...

In [31]:
adult_census[:n_samples_to_plot].query("age < 27")["class"]

0        <=50K
4        <=50K
8        <=50K
12       <=50K
16       <=50K
         ...  
4981     <=50K
4983     <=50K
4989     <=50K
4992     <=50K
4993     <=50K
Name: class, Length: 1153, dtype: object

In [32]:
adult_census[:n_samples_to_plot].query("age < 27")["class"].value_counts()

 <=50K    1130
 >50K       23
Name: class, dtype: int64

Ahora filtramos por la segunda región 🥈 seleccionado todas las muestras con edad mayor e igual a $27$ años... y tambien con menos de $40$ horas por semana, y luego vamos a ver cuantos puntos "azules" y "naranjas" tenemos en esta región...

In [33]:
adult_census[:n_samples_to_plot].query("age >= 27 and hours_per_week < 40")["class"]

5        <=50K
7         >50K
9        <=50K
13       <=50K
17       <=50K
         ...  
4961     <=50K
4962     <=50K
4969     <=50K
4976     <=50K
4982     <=50K
Name: class, Length: 722, dtype: object

In [34]:
adult_census[:n_samples_to_plot].query("age >= 27 and hours_per_week < 40")["class"].value_counts()

 <=50K    616
 >50K     106
Name: class, dtype: int64

Y por último filtramos por la tercer región 🥉 seleccionado todas las muestras con edad mayor e igual a $27$ años... y tambien con mas de $40$ horas por semana, y luego vamos a ver cuantos puntos "azules" y "naranjas" tenemos en esta región...

In [35]:
adult_census[:n_samples_to_plot].query("age >= 27 and hours_per_week >= 40")["class"]

1        <=50K
2         >50K
3         >50K
6        <=50K
10        >50K
         ...  
4995     <=50K
4996     <=50K
4997     <=50K
4998      >50K
4999      >50K
Name: class, Length: 3125, dtype: object

In [36]:
adult_census[:n_samples_to_plot].query("age >= 27 and hours_per_week >= 40")["class"].value_counts()

 <=50K    2082
 >50K     1043
Name: class, dtype: int64

👀 Comprobamos que tenemos, con la sumatoria de todas las regiones, $5000$ observaciones...

In [37]:
a = len(adult_census[:n_samples_to_plot].query("age < 27")["class"])
b = len(adult_census[:n_samples_to_plot].query("age >= 27 and hours_per_week < 40")["class"])
c = len(adult_census[:n_samples_to_plot].query("age >= 27 and hours_per_week >= 40")["class"])
a + b + c

5000

<p align="justify">
👀 Es interesante notar que algunos modelos de aprendizaje automático funcionarán de manera similar a lo que hicimos nosotros. Esa forma similar se la conoce como modelos de árboles de decisión. Los dos umbrales que elegimos (27 años y 40 horas) son arbitrarios, es decir, los elegimos solo mirando el diagrama de dispersión. Pero, un árbol de decisión elegirá las mejores divisiones en función de los datos, sin la intervención o inspección humana. <br><br>
Hay que tener en cuenta que el aprendizaje automático se usa a menudo cuando la creación de reglas a mano no es sencilla. Por ejemplo, porque tenemos una dimensión alta (muchas columnas en una tabla), o porque no existen reglas simples y obvias que separen las clases.<br><br>
👀 En resumen, lo importante a recordar es que en un entorno de aprendizaje automático, un modelo crea automáticamente las reglas a partir de los datos existentes, para hacer predicciones sobre datos no vistos.
</p>


 # **<font color="DeepPink">Conclusiones</font>**

<p align="justify">
👀 En este colab nosotros:<br><br>
✅ Cargamos los datos de un archivo <code>CSV</code> usando <code>Pandas</code>.<br> ✅ Examinamos los diferentes tipos de variables para diferenciar entre variables categóricas y numéricas.<br> ✅ Inspeccionamoslos datos con <code>Pandas</code> y <code>Plotly</code>. <br> ✅ La inspección de datos puede permitir decidir si el uso de aprendizaje automático es apropiado.<br> ✅
Tambien hicimos observaciones importantes. <br><br>Por ejemplo:</p>

- Si la variable objetivo está desequilibrada (es decir, tiene más muestras de una categoría objetivo que de otra), es posible que necesite técnicas especiales para entrenar y evaluar el modelo de aprendizaje automático.

- Tener columnas redundantes (o altamente correlacionadas) puede ser un problema para algunos algoritmos de aprendizaje automático, y se recomienda eliminarlas.

<br>
<p align="justify">
Al contrario del árbol de decisión, los modelos lineales solo pueden capturar interacciones lineales, por lo tanto, hay que tener en cuenta las relaciones no lineales en los datos.
</p>


<br>
<br>
<p align="center"><b>
💗
<font color="DeepPink">
Hemos llegado al final de nuestro colab, a seguir codeando...
</font>
</p>
