<a href="https://colab.research.google.com/github/kachytronico/colab-PIA/blob/main/201_Carga_de_datos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Carga de datos

Durante el tema 2 (preprocesamiento de la información) vamos a trabajar con datos y los vamos a procesar para que nuestros modelos puedan trabajar con ellos.

Existen varios tipos de datos (como ya hemos visto: tabulares, imágenes, textos...) y varios tipos de modelos que pueden (o no) admitir ciertos valores. Por ejemplo, habrá modelos que **NO** nos permitirán trabajar con valores nulos y habrá otros que **SÍ** nos lo permitirán.

Antes de nada, durante este primer cuadernillo, veremos cómo podemos cargar nuestros datos y qué operaciones podemos llevar a cabo directamente sobre la carga.

Para ello, usaremos el módulo de ```pandas```.

In [None]:
import pandas as pd

# Carga directa de un archivo local

Como vimos en el cuadernillo ```103```, podemos cargar un conjunto de datos desde, por ejemplo, un fichero ```csv``` que se encuentre en una ruta local de nuestro entorno. En el caso de Google Colab, podíamos descargar el conjunto de datos directamente a nuestro entorno virtual (no vimos cómo hacerlo, lo vamos a ver ahora).

Para descargar un fichero, usaremos el comando ```wget``` de ```bash```.

In [None]:
!wget https://gist.githubusercontent.com/netj/8836201/raw/6f9306ad21398ea43cba4f7d537619d0e07d5ae3/iris.csv

--2025-11-15 16:19:37--  https://gist.githubusercontent.com/netj/8836201/raw/6f9306ad21398ea43cba4f7d537619d0e07d5ae3/iris.csv
Resolving gist.githubusercontent.com (gist.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to gist.githubusercontent.com (gist.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 3975 (3.9K) [text/plain]
Saving to: ‘iris.csv’


2025-11-15 16:19:37 (53.5 MB/s) - ‘iris.csv’ saved [3975/3975]



Y ahora podemos cargarlo a un ```dataframe```.

In [None]:
df = pd.read_csv("iris.csv")
df.head() # esta función devuelve las 5 primeras filas

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa


Ten en cuenta que hay datos que no estarán en formato ```csv``` (aunque esto será muy común). Por ejemplo, también podemos cargar ```json``` o ```excel```.

In [None]:
# con ? abro la ayuda
pd.read_json?

# con ?? abro el método
pd.read_excel??

En general, nosotros siempre trabajaremos con datos en formato ```csv``` en local (por simplicidad), salvo cuando trabajemos con imágenes.

# Carga directa desde un archivo web

Alternativamente, podemos utilizar directamente el enlace del conjunto de datos en el constructor del ```dataframe```.

In [None]:
df = pd.read_csv("https://gist.githubusercontent.com/netj/8836201/raw/6f9306ad21398ea43cba4f7d537619d0e07d5ae3/iris.csv")
df.head()

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa


# Carga desde un módulo de _datasets_

Finalmente, es importante conocer que ciertos módulos de ```Python``` contienen _datasets_ que podremos tomar directamente para nuestros modelos.

En ```103``` ya vimos el módulo ```seaborn```, pero también tendremos ```datasets``` de ```HuggingFace```, entre otros.

In [None]:
import seaborn as sns

sns.load_dataset("titanic")

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


Y también tenemos acceso directo a los de ```Kaggle```.

In [None]:
import kagglehub
import pandas
import os

path = kagglehub.dataset_download("shivamb/netflix-shows") # recuerda, el path no es la dirección del archivo
file = os.listdir(path)[0] # listdir(): literalmente ls
df = pandas.read_csv(os.path.join(path, file)) # os.path.join(): une de forma inteligente dos o más fragmentos de una ruta

Downloading from https://www.kaggle.com/api/v1/datasets/download/shivamb/netflix-shows?dataset_version_number=5...


100%|██████████| 1.34M/1.34M [00:01<00:00, 1.36MB/s]

Extracting files...





In [None]:
df.head()

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,"September 25, 2021",2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm..."
1,s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t..."
2,s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,"September 24, 2021",2021,TV-MA,1 Season,"Crime TV Shows, International TV Shows, TV Act...",To protect his family from a powerful drug lor...
3,s4,TV Show,Jailbirds New Orleans,,,,"September 24, 2021",2021,TV-MA,1 Season,"Docuseries, Reality TV","Feuds, flirtations and toilet talk go down amo..."
4,s5,TV Show,Kota Factory,,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, Romantic TV Shows, TV ...",In a city of coaching centers known to train I...
