----
# Cuaderno 1 - Introducción al Machine Learning
## Ariel Palazzesi - 2026
----

En este cuaderno vamos a conocer las herramientas principales que usaremos, como `Google Colab` y `Kaggle`, y a trabajar con los formatos de datos más comunes: CSV, Excel y otros.
En esta serie de cuadernos asumire que el lector tiene conocimientos -al menos básicos- de Python y de las librerias `Pandas`, `Matplotlib`, etc.

## Preparación del entorno de trabajo y formatos de datos

En este primer cuaderno vamos a dejar listo nuestro entorno de trabajo. Además, exploraremos un dataset descargado desde Kaggle y realizaremos una primera inspección de sus características principales.

## Carga del dataset

En este cuaderno vamos a trabajar con un conjunto de datos real llamado **"Superstore Sales Dataset"**, disponible en la plataforma Kaggle.

**Antes de ejecutar el código**, es necesario que el archivo de datos esté disponible en el entorno de Google Colab.

### Paso previo: subir el archivo a Colab

1. Descargá el archivo `train.csv` desde el siguiente enlace:
   [https://www.kaggle.com/datasets/rohitsahoo/sales-forecasting](https://www.kaggle.com/datasets/rohitsahoo/sales-forecasting)

2. En Google Colab, buscá el panel lateral izquierdo y hacé clic en el ícono **Files** (Archivos).

3. Usá la opción **Upload** (Subir) para cargar el archivo `train.csv` desde tu computadora.

4. Una vez subido, verificá que el archivo `train.csv` aparezca en la carpeta principal del entorno de Colab.

>  Si el archivo no está en la misma carpeta que el cuaderno, el código no podrá encontrarlo y se producirá un error.

---

### Lectura del archivo con Pandas

A continuación, utilizamos la biblioteca **pandas** para leer el archivo CSV y cargar su contenido en una estructura llamada **DataFrame**, que nos permitirá analizar y manipular los datos de forma sencilla.

El DataFrame se guardará en una variable llamada `df`. Luego, con `df.head()`, se muestran las primeras cinco filas del conjunto de datos, lo que nos permite:

* verificar que el archivo se cargó correctamente,
* observar las primeras observaciones,
* conocer las columnas disponibles y el tipo de información que contienen.

Veamos el código:

In [2]:
# Importamos la librería Pandas
import pandas as pd

# Asegurate de haber subido el archivo train.csv a Colab!
ruta = 'train.csv'       # Archivo a abrir
df = pd.read_csv(ruta)   # Lo abrimos y guardamos en df
df.head()                # Mostramos las primeras filas

Unnamed: 0,Row ID,Order ID,Order Date,Ship Date,Ship Mode,Customer ID,Customer Name,Segment,Country,City,State,Postal Code,Region,Product ID,Category,Sub-Category,Product Name,Sales
0,1,CA-2017-152156,08/11/2017,11/11/2017,Second Class,CG-12520,Claire Gute,Consumer,United States,Henderson,Kentucky,42420.0,South,FUR-BO-10001798,Furniture,Bookcases,Bush Somerset Collection Bookcase,261.96
1,2,CA-2017-152156,08/11/2017,11/11/2017,Second Class,CG-12520,Claire Gute,Consumer,United States,Henderson,Kentucky,42420.0,South,FUR-CH-10000454,Furniture,Chairs,"Hon Deluxe Fabric Upholstered Stacking Chairs,...",731.94
2,3,CA-2017-138688,12/06/2017,16/06/2017,Second Class,DV-13045,Darrin Van Huff,Corporate,United States,Los Angeles,California,90036.0,West,OFF-LA-10000240,Office Supplies,Labels,Self-Adhesive Address Labels for Typewriters b...,14.62
3,4,US-2016-108966,11/10/2016,18/10/2016,Standard Class,SO-20335,Sean O'Donnell,Consumer,United States,Fort Lauderdale,Florida,33311.0,South,FUR-TA-10000577,Furniture,Tables,Bretford CR4500 Series Slim Rectangular Table,957.5775
4,5,US-2016-108966,11/10/2016,18/10/2016,Standard Class,SO-20335,Sean O'Donnell,Consumer,United States,Fort Lauderdale,Florida,33311.0,South,OFF-ST-10000760,Office Supplies,Storage,Eldon Fold 'N Roll Cart System,22.368


## Exploración inicial del dataset

Es importante revisar qué tipos de datos tenemos, si hay valores nulos y la cantidad de registros disponibles. Esto nos permitirá planificar mejor las etapas siguientes del proyecto.

In [None]:
# Información general del dataset
df.info()

# Verificamos valores nulos por columna
df.isnull().sum()

# Vemos la cantidad de filas y columnas
df.shape

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9800 entries, 0 to 9799
Data columns (total 18 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Row ID         9800 non-null   int64  
 1   Order ID       9800 non-null   object 
 2   Order Date     9800 non-null   object 
 3   Ship Date      9800 non-null   object 
 4   Ship Mode      9800 non-null   object 
 5   Customer ID    9800 non-null   object 
 6   Customer Name  9800 non-null   object 
 7   Segment        9800 non-null   object 
 8   Country        9800 non-null   object 
 9   City           9800 non-null   object 
 10  State          9800 non-null   object 
 11  Postal Code    9789 non-null   float64
 12  Region         9800 non-null   object 
 13  Product ID     9800 non-null   object 
 14  Category       9800 non-null   object 
 15  Sub-Category   9800 non-null   object 
 16  Product Name   9800 non-null   object 
 17  Sales          9800 non-null   float64
dtypes: float

(9800, 18)

Comentarios y reflexiones
- ¿Qué estructura general tiene tu dataset?
- ¿Detectaste encabezados (headers) correctos?
- ¿El separador del CSV era el esperado (coma, punto y coma, otro)?
- ¿Notaste la presencia de datos faltantes o inconsistencias?
- ¿Qué tipo de variables predominan: numéricas, categóricas o mixtas?

# Carga de archivos en formato Excel

Los datos pueden estar en diferentes formatos. Ya aprendimos a importar un achivo CSV, y en este ejemplo utilizamos la función `read_excel()` de la biblioteca `pandas` para cargar un archivo en formato Excel.

A diferencia de los archivos CSV, los Excel pueden tener múltiples hojas (o "sheets"). Por eso, indicamos con el parámetro `sheet_name=0` que queremos leer la primera hoja del archivo:

Una vez cargado, guardamos el contenido en un DataFrame llamado `df_excel`. Para visualizar las primeras filas del archivo y verificar que se haya importado correctamente, usamos `df_excel.head()`, que muestra por defecto las primeras 5 filas del dataset.


In [5]:
# Cargar un archivo Excel
df_excel = pd.read_excel("archivo.xlsx", sheet_name=0) # Indicamos que vamos a leer la primer hoja (0)
df_excel.head()

Unnamed: 0,Row ID,Order ID,Order Date,Ship Date,Ship Mode,Customer ID,Customer Name,Segment,Country,City,State,Postal Code,Region,Product ID,Category,Sub-Category,Product Name,Sales
0,1,CA-2017-152156,2017-11-08,2017-11-11,Second Class,CG-12520,Claire Gute,Consumer,United States,Henderson,Kentucky,42420.0,South,FUR-BO-10001798,Furniture,Bookcases,Bush Somerset Collection Bookcase,261.96
1,2,CA-2017-152156,2017-11-08,2017-11-11,Second Class,CG-12520,Claire Gute,Consumer,United States,Henderson,Kentucky,42420.0,South,FUR-CH-10000454,Furniture,Chairs,"Hon Deluxe Fabric Upholstered Stacking Chairs,...",731.94
2,3,CA-2017-138688,2017-06-12,2017-06-16,Second Class,DV-13045,Darrin Van Huff,Corporate,United States,Los Angeles,California,90036.0,West,OFF-LA-10000240,Office Supplies,Labels,Self-Adhesive Address Labels for Typewriters b...,14.62
3,4,US-2016-108966,2016-10-11,2016-10-18,Standard Class,SO-20335,Sean O'Donnell,Consumer,United States,Fort Lauderdale,Florida,33311.0,South,FUR-TA-10000577,Furniture,Tables,Bretford CR4500 Series Slim Rectangular Table,9575775.0
4,5,US-2016-108966,2016-10-11,2016-10-18,Standard Class,SO-20335,Sean O'Donnell,Consumer,United States,Fort Lauderdale,Florida,33311.0,South,OFF-ST-10000760,Office Supplies,Storage,Eldon Fold 'N Roll Cart System,22368.0


## Conclusión y cierre

En este cuaderno configuramos nuestro entorno y realizamos una primera inspección de los datos.

> ¿Qué pasos creés que serán necesarios antes de poder entrenar un modelo de Machine Learning con este dataset?

Este análisis preliminar es fundamental para anticipar posibles desafíos en la limpieza y preprocesamiento de los datos.