# Introducción

En análisis de datos, todo comienza con **leer datos** 📊.  
Pero los datos no siempre vienen en el mismo formato:  
- Archivos de **texto** como CSV o TXT  
- Formatos **estructurados** como JSON o XML  
- **Bases de datos** SQL  
- Incluso directamente desde la **web** 🌐  

En esta primera parte vamos a ver un ejemplo con **CSV**, uno de los formatos más comunes y fáciles de entender.

Para trabajar con datos en Python, vamos a utilizar la librería **pandas** que nos permite leer datos de muchos formatos diferentes (CSV, Excel, JSON, SQL, etc.).

## Opciones útiles de `read_csv`

- **`sep`** → define el delimitador (`,` por defecto, puede ser `;`, `|`, `\s+`, etc.)
- **`header`** → fila usada como encabezado (`None` si no hay)
- **`names`** → lista de nombres de columnas
- **`index_col`** → columna que se usará como índice
- **`skiprows`** → filas que se saltan al leer
- **`na_values`** → valores a considerar como `NaN`
- **`nrows`** → número de filas a leer
- **`chunksize`** → leer el archivo por partes (útil en archivos grandes)

In [1]:
import pandas as pd



In [4]:
df = pd.read_csv("datasets/CarsDatasets2025.csv", encoding="latin1")

In [5]:
df.head(10)


Unnamed: 0,Company Names,Cars Names,Engines,CC/Battery Capacity,HorsePower,Total Speed,Performance(0 - 100 )KM/H,Cars Prices,Fuel Types,Seats,Torque
0,FERRARI,SF90 STRADALE,V8,3990 cc,963 hp,340 km/h,2.5 sec,"$1,100,000",plug in hyrbrid,2,800 Nm
1,ROLLS ROYCE,PHANTOM,V12,6749 cc,563 hp,250 km/h,5.3 sec,"$460,000",Petrol,5,900 Nm
2,Ford,KA+,1.2L Petrol,"1,200 cc",70-85 hp,165 km/h,10.5 sec,"$12,000-$15,000",Petrol,5,100 - 140 Nm
3,MERCEDES,GT 63 S,V8,"3,982 cc",630 hp,250 km/h,3.2 sec,"$161,000",Petrol,4,900 Nm
4,AUDI,AUDI R8 Gt,V10,"5,204 cc",602 hp,320 km/h,3.6 sec,"$253,290",Petrol,2,560 Nm
5,BMW,Mclaren 720s,V8,"3,994 cc",710 hp,341 km/h,2.9 sec,"$499,000",Petrol,2,770 Nm
6,ASTON MARTIN,VANTAGE F1,V8,"3,982 cc",656 hp,314 km/h,3.6 sec,"$193,440",Petrol,2,685 Nm
7,BENTLEY,Continental GT Azure,V8,"3,996 cc",550 hp,318 km/h,4.0 sec,"$311,000",Petrol,4,900 Nm
8,LAMBORGHINI,VENENO ROADSTER,V12,"6,498 cc",750 hp,356 km/h,2.9 sec,"$4,500,000",Petrol,2,690 Nm
9,FERRARI,F8 TRIBUTO,V8,"3,900 cc",710 hp,340 km/h,2.9 sec,"$280,000",Petrol,2,770 Nm


### 📄 Creación de un CSV de ejemplo

Vamos a crear un **string multilínea** que simula un archivo CSV:

- 🏷️ **Primera línea** → contiene los **nombres de las columnas** (`a, b, c, d, message`).  
- 🔢 **Filas siguientes** → contienen los **valores de cada columna**, separados por comas (`,`).  

Así se vería el archivo en crudo:


In [6]:
#1. CSV simple con encabezado

from io import StringIO

csv_text = """a,b,c,d,message
1,2,3,4,hello
5,6,7,8,world
9,10,11,12,foo"""

df = pd.read_csv(StringIO(csv_text)) #lo transforma directamente en una tabla (DataFrame).
df

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [8]:
#2. CSV sin encabezado
csv_noheader = """1,2,3,4,hello
5,6,7,8,world
9,10,11,12,foo"""


Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [9]:
# pandas asigna nombres genéricos a las columnas
df_noheader = pd.read_csv(StringIO(csv_noheader), header=None)
df_noheader

Unnamed: 0,0,1,2,3,4
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [10]:

# También podemos asignar nombres personalizados:
names = ['a', 'b', 'c', 'd', 'message']
df_named = pd.read_csv(StringIO(csv_noheader), names=names)
df_named

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [12]:
#3. Usar una columna como índice
df_indexed = pd.read_csv(StringIO(csv_noheader), names=names, index_col='message')
df_indexed

Unnamed: 0_level_0,a,b,c,d
message,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
hello,1,2,3,4
world,5,6,7,8
foo,9,10,11,12


In [13]:
#4. CSV con delimitador distinto (ejemplo con ;)
csv_semicolon = """a;b;c;d;message
1;2;3;4;hello
5;6;7;8;world"""

df_semicolon = pd.read_csv(StringIO(csv_semicolon), sep=";")
df_semicolon

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world


In [14]:
#5. CSV con espacios como separador


csv_space = """A   B   C
aaa -0.2 -1.0
bbb  0.9  0.3
ccc -0.2 -0.3"""

# Usamos una expresión regular para separar por uno o más espacios
df_space = pd.read_csv(StringIO(csv_space), sep=r"\s+")
df_space


Unnamed: 0,A,B,C
0,aaa,-0.2,-1.0
1,bbb,0.9,0.3
2,ccc,-0.2,-0.3


In [15]:

csv_skip = """# comentario
a,b,c,d
1,2,3,4
5,6,7,8"""

df_skip = pd.read_csv(StringIO(csv_skip), skiprows=[0])
df_skip

Unnamed: 0,a,b,c,d
0,1,2,3,4
1,5,6,7,8
