<a href="https://colab.research.google.com/github/christmasv/Entendiendo-Machine-Learning-desde-Cero/blob/main/Basicos_%7C_EDA.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**Análisis Exploratorio de Datos (EDA) en el Contexto de Machine Learning**

El Análisis Exploratorio de Datos (EDA) es un componente esencial en el proceso de preparación de datos en Machine Learning. Este enfoque implica examinar y comprender el conjunto de datos antes de aplicar modelos de aprendizaje automático.

Aqui vamos a analizar los aspectos claves:

1.   Visualización de Datos
2.   Resumen Estadístico
3.   Manejo de Datos Faltantes
4.   Detección de Anomalías
5.   Exploración de Relaciones

En la travesía hacia la construcción de modelos de aprendizaje automático, el primer paso crucial es adentrarse en la comprensión profunda de los datos. En este viaje, contar con la biblioteca Pandas se convierte en una herramienta indispensable. Pandas, ampliamente reconocida como la piedra angular en la caja de herramientas de los científicos de datos, facilita la exploración y manipulación de datos de manera eficiente.

In [1]:
# Sintaxis:
import pandas as pd

La parte más importante de la biblioteca Pandas es el DataFrame. Un DataFrame contiene el tipo de datos que podría considerar una tabla. Esto es similar a una hoja en Excel o una tabla en una base de datos SQL.

Utilizaremos un dataset académico "Melbourne Housing Snapshot"

In [6]:
#Importamos el dataframe
melbourne_file_path = '/content/melb_data.csv'


In [7]:
#Leer los datos y almacenarlos en DataFrame titulado melbourne_data
melbourne_data = pd.read_csv(melbourne_file_path)

In [8]:
#Imprimir información de los estadisticos del dataframe utilizando el comando "describe()""
melbourne_data.describe()

Unnamed: 0,Rooms,Price,Distance,Postcode,Bedroom2,Bathroom,Car,Landsize,BuildingArea,YearBuilt,Lattitude,Longtitude,Propertycount
count,13580.0,13580.0,13580.0,13580.0,13580.0,13580.0,13518.0,13580.0,7130.0,8205.0,13580.0,13580.0,13580.0
mean,2.937997,1075684.0,10.137776,3105.301915,2.914728,1.534242,1.610075,558.416127,151.96765,1964.684217,-37.809203,144.995216,7454.417378
std,0.955748,639310.7,5.868725,90.676964,0.965921,0.691712,0.962634,3990.669241,541.014538,37.273762,0.07926,0.103916,4378.581772
min,1.0,85000.0,0.0,3000.0,0.0,0.0,0.0,0.0,0.0,1196.0,-38.18255,144.43181,249.0
25%,2.0,650000.0,6.1,3044.0,2.0,1.0,1.0,177.0,93.0,1940.0,-37.856822,144.9296,4380.0
50%,3.0,903000.0,9.2,3084.0,3.0,1.0,2.0,440.0,126.0,1970.0,-37.802355,145.0001,6555.0
75%,3.0,1330000.0,13.0,3148.0,3.0,2.0,2.0,651.0,174.0,1999.0,-37.7564,145.058305,10331.0
max,10.0,9000000.0,48.1,3977.0,20.0,8.0,10.0,433014.0,44515.0,2018.0,-37.40853,145.52635,21650.0



La interpretación de los datos estadísticos implica analizar los 8 números asociados con cada columna en el conjunto de datos original. El recuento indica cuántas filas contienen valores no faltantes. La presencia de valores faltantes se debe a diversas razones, como la falta de recopilación de datos específicos.

La media representa el promedio, mientras que la desviación estándar (std) mide la dispersión numérica de los valores. Para comprender los valores mínimo, 25%, 50%, 75%, y máximo, visualice ordenar cada columna de menor a mayor. El mínimo es el valor más pequeño. El 25% es el valor que supera al 25% de los datos y es inferior al 75%. De manera similar, los percentiles 50 y 75 se definen, y el máximo es el valor más grande. Este enfoque proporciona una visión detallada de la distribución y variabilidad de los datos.

¿Cómo puedes reducir esta abrumadora cantidad de datos a algo que puedas entender? Comenzaremos eligiendo algunas variables usando nuestra intuición. Cursos posteriores le mostrarán técnicas estadísticas para priorizar variables automáticamente. Para elegir variables

In [9]:
#Metodo para listar las columnas
melbourne_data.columns

Index(['Suburb', 'Address', 'Rooms', 'Type', 'Price', 'Method', 'SellerG',
       'Date', 'Distance', 'Postcode', 'Bedroom2', 'Bathroom', 'Car',
       'Landsize', 'BuildingArea', 'YearBuilt', 'CouncilArea', 'Lattitude',
       'Longtitude', 'Regionname', 'Propertycount'],
      dtype='object')

In [10]:
# dropna elimina los valores faltantes (piense en na como "no disponible")
melbourne_data = melbourne_data.dropna(axis=0)

Seleccionar el objetivo de predicción
Puede extraer una variable con notación de puntos. Esta única columna se almacena en una Serie, que en términos generales es como un DataFrame con una sola columna de datos.

Usaremos la notación de puntos para seleccionar la columna que queremos predecir, que se denomina objetivo de predicción. Por convención, el objetivo de predicción se denomina "y". Entonces, el código que necesitamos para guardar los precios de la vivienda en los datos de Melbourne es

In [11]:
y = melbourne_data.Price

Elegir "Características"
Las columnas que se ingresan en nuestro modelo (y luego se usan para hacer predicciones) se denominan "características". En nuestro caso, esas serían las columnas utilizadas para determinar el precio de la vivienda. A veces, utilizará todas las columnas excepto la de destino como características. Otras veces estará mejor con menos funciones.

Por ahora, construiremos un modelo con sólo unas pocas características. Más adelante verá cómo iterar y comparar modelos creados con diferentes características.

Seleccionamos múltiples funciones proporcionando una lista de nombres de columnas entre paréntesis. Cada elemento de esa lista debe ser una cadena (entre comillas).

In [12]:
melbourne_features = ['Rooms', 'Bathroom', 'Landsize', 'Lattitude', 'Longtitude']

In [13]:
#Por conveniencia le llamaremos "X"
X = melbourne_data[melbourne_features]

Repasemos rápidamente los datos que usaremos para predecir los precios de la vivienda utilizando el método de descripción y el método principal, que muestra las filas superiores.

In [14]:
X.describe()

Unnamed: 0,Rooms,Bathroom,Landsize,Lattitude,Longtitude
count,6196.0,6196.0,6196.0,6196.0,6196.0
mean,2.931407,1.57634,471.00694,-37.807904,144.990201
std,0.971079,0.711362,897.449881,0.07585,0.099165
min,1.0,1.0,0.0,-38.16492,144.54237
25%,2.0,1.0,152.0,-37.855438,144.926198
50%,3.0,1.0,373.0,-37.80225,144.9958
75%,4.0,2.0,628.0,-37.7582,145.0527
max,8.0,8.0,37000.0,-37.45709,145.52635


In [15]:
X.head()


Unnamed: 0,Rooms,Bathroom,Landsize,Lattitude,Longtitude
1,2,1.0,156.0,-37.8079,144.9934
2,3,2.0,134.0,-37.8093,144.9944
4,4,1.0,120.0,-37.8072,144.9941
6,3,2.0,245.0,-37.8024,144.9993
7,2,1.0,256.0,-37.806,144.9954


Verificar visualmente sus datos con estos comandos es una parte importante del trabajo de un científico de datos. Con frecuencia encontrará sorpresas en el conjunto de datos que merecen una inspección más detallada.

Construyendo su modelo¶
Utilizará la biblioteca scikit-learn para crear sus modelos. Al codificar, esta biblioteca se escribe como sklearn, como verá en el código de muestra. Scikit-learn es fácilmente la biblioteca más popular para modelar los tipos de datos que normalmente se almacenan en DataFrames.

Los pasos para construir y utilizar un modelo son:

* Definir: ¿Qué tipo de modelo será? ¿Un árbol de
decisiones? ¿Algún otro tipo de modelo? También se especifican algunos otros parámetros del tipo de modelo.
* Ajuste: capture patrones a partir de los datos proporcionados. Este es el corazón del modelaje.
* Predecir: justo lo que parece
* Evaluar: determinar qué tan precisas son las predicciones del modelo.

A continuación se muestra un ejemplo de cómo definir un modelo de árbol de decisión con scikit-learn y ajustarlo con las características y la variable objetivo.

In [16]:

from sklearn.tree import DecisionTreeRegressor

Definir modelo. Especifique un número para random_state para garantizar los mismos resultados en cada ejecución.

In [17]:
# Definir modelo. Especifique un número para random_state para garantizar los mismos resultados en cada ejecución.
melbourne_model = DecisionTreeRegressor(random_state=1)

In [18]:
# Primer Model
melbourne_model.fit(X, y)

Muchos modelos de aprendizaje automático permiten cierta aleatoriedad en el entrenamiento del modelo. Especificar un número para random_state garantiza que obtendrá los mismos resultados en cada ejecución. Esto se considera una buena práctica. Utilice cualquier número y la calidad del modelo no dependerá significativamente del valor exacto que elija.

Ahora tenemos un modelo ajustado que podemos utilizar para hacer predicciones.

En la práctica, querrás hacer predicciones sobre las casas nuevas que saldrán al mercado en lugar de las casas cuyos precios ya tenemos. Pero haremos predicciones para las primeras filas de los datos de entrenamiento para ver cómo funciona la función de predicción.

In [19]:
print("Making predictions for the following 5 houses:")
print(X.head())
print("The predictions are")
print(melbourne_model.predict(X.head()))

Making predictions for the following 5 houses:
   Rooms  Bathroom  Landsize  Lattitude  Longtitude
1      2       1.0     156.0   -37.8079    144.9934
2      3       2.0     134.0   -37.8093    144.9944
4      4       1.0     120.0   -37.8072    144.9941
6      3       2.0     245.0   -37.8024    144.9993
7      2       1.0     256.0   -37.8060    144.9954
The predictions are
[1035000. 1465000. 1600000. 1876000. 1636000.]


Estos resultados de predicción están asociados con las características de cinco casas específicas. Las características de cada casa, representadas por las columnas Rooms, Bathroom, Landsize, Lattitude y Longtitude.  Las predicciones asociadas a estos datos de entrada son [1035000. 1465000. 1600000. 1876000. 1636000.], que representan los valores estimados para el precio de cada una de estas casas.