# Masterclass: Datasets & CSV con Pandas

## Introducción a Pandas

De acuerdo. Pasamos a los pandas. Muy emocionante, al menos para mí. A nadie le importa la instalación y el funcionamiento de un portátil, pero para eso estamos todos aquí.

Un breve resumen de lo que hace Pandas. Muy rápido. Es una librería de Python y su trabajo es tomar algunos datos, un conjunto de datos o múltiples conjuntos de datos y ayudarnos a analizar y manipular esos datos. Trabaja con ello, visualízalo. A veces, básicamente, nos ofrece montones de formas de interactuar con datos complejos.

Lamentablemente, su logotipo no es un panda. Hasta hace unos cinco minutos, creía que se trataba de una serie de rectángulos aleatorios, pero en estos rectángulos están la letra P y la letra D, así que eso es para los pandas. PD.

Y lo primero que tenemos que discutir, aparte de importar pandas, podríamos hacerlo ahora mismo. Pero realmente lo primero que tenemos que hacer es darle a Pandas los datos con los que queremos trabajar. Así que antes de que podamos aprender acerca de todos los métodos y estructuras de datos y gráficos y todas estas cosas divertidas, tenemos que tener algunos datos para alimentar a pandas. ¿Lo ves? Sí. Datos del oso panda en la boca. Es una animación muy complicada.

---

## Conjuntos de datos basados en texto

Bien, volvamos a los conjuntos de datos. Hablamos de datos de texto. Eso es muy importante. Hay conjuntos de datos que constan de un millón de imágenes de entrenamiento para algoritmos de visión por ordenador. No estamos hablando de eso. Hablamos de conjuntos de datos basados en texto.

Y dentro de ese mundo hay un par de formatos comunes diferentes: CSV, JSON, SQL, algunos formatos propietarios, pero con mucho el formato más común es CSV, que usted puede haber encontrado antes. Significa valores separados por comas. En realidad no está tan estrictamente definido, pero la idea básica es que tenemos datos tabulares, por lo que las columnas y filas y, tradicionalmente, en la parte superior vamos a tener un montón de columnas. Esta será la definición de cada columna.

---

## Ejemplo de CSV: Pokémon

Así que tenemos el simple conjunto de datos Pokédex: número seguido por el nombre de un Pokémon, seguido por el tipo de un Pokémon, separados por comas. Luego, cada entrada o cada fila se compone de, en este caso, tres valores diferentes en ese orden, separados por comas.

Por ejemplo, si tomamos cualquier fila aquí, como esta, vemos:

```
4,Charmander,Fuego
```

Muy bien, cuatro. Ese es el número de Pokédex para esta entrada. El nombre es Charmander y el tipo es fuego. Si tuviéramos que hacer esto un poco más legible para los humanos, se vería así, ¿verdad? Sólo cambia el espaciado.

```
Número: 4
Nombre: Charmander
Tipo: Fuego
```

Ese es realmente el concepto básico. Así que tenemos información tabular, columnas y filas. Cada fila es sólo, ya sabes, una línea de texto. Cada valor se separa tradicionalmente con una coma, aunque como he dicho, en realidad no tiene por qué ser una coma.

---

## Ejemplos de conjuntos de datos CSV

Veremos algunos conjuntos de datos. Te voy a mostrar un par muy rápido que se desvían de esa estructura.

### Ejemplo 1: Estados de EE.UU.

Aquí hay uno sencillo. Esto es sólo un estado de EE.UU. donde tenemos el nombre del estado y luego la abreviatura y el código postal. Son dos caracteres o dos letras.

```
Montana,Mont,MT
```

Así que tenemos Montana. Bueno, acabo de pasar de largo. ¿Adónde fuiste? Y luego Mont y luego MT. Y están separados por comas.

### Ejemplo 2: Ventas de viviendas en el condado de King

He aquí una mucho más complicada. Este es uno de los conjuntos de datos con los que nos divertiremos mucho. Se trata de ventas a domicilio en el condado de King, donde se encuentra Seattle, en Washington. Y creo que 2014 a 2015, de todos modos, hay como 20 y pico mil casas que se vendieron y cada una tiene un montón de información.

Podemos ver todas las cabeceras arriba. Cosas como el número de habitaciones, el precio, los metros cuadrados interiores, los metros cuadrados del solar, si está frente al mar, si tiene vistas, cuántos pisos tiene... Montones y montones de cosas, pero cada fila sigue ese formato. Así que tenemos un valor y luego una coma y luego otro valor, luego una coma, y así sucesivamente.

### Ejemplo 3: Netflix

Pero luego veremos conjuntos de datos como este, Netflix, uno que muestra programas de televisión y películas donde en realidad no hay valores separados por comas. En su lugar, tenemos caracteres de tubería (`|`). Sigue siendo un archivo CSV. Así se llama. Y afortunadamente para nosotros, Pandas es flexible y puede trabajar con este tipo de datos. Pero al fin y al cabo, no está separado por comas, ¿verdad? Está separado por caracteres de tubo.

---

## Kaggle: Una fuente de conjuntos de datos

Lo último que quería mostrar aquí es un sitio web muy útil cuando intentas encontrar conjuntos de datos con los que trabajar, lo que es realmente importante cuando estás aprendiendo, cuando quieres practicar cosas.

Hay un sitio web llamado Kaggle que no debe confundirse con Kegels y en el que hay una sección para conjuntos de datos. Así que este es un sitio web de todo tipo de análisis de datos. Hay concursos, cuadernos y código que la gente comparte, algo así como una red social para cuadernos. Hay debates, cursos y conjuntos de datos.

Así que podemos filtrar. Y esto es lo que yo haría y recomiendo hacer para los conjuntos de datos CSV. Y como este es un curso de pago, voy a decir licencias Creative Commons. No tienes por qué hacerlo si sólo lo haces con fines educativos. Y entonces podemos ver un montón de diferentes conjuntos de datos, cientos y cientos si no miles.

### Ejemplo: Conjunto de datos de terremotos significativos

Si quisiéramos ver uno de estos, por ejemplo, el conjunto de datos de terremotos significativos, podemos descargarlo. También podemos ver un pequeño explorador aquí. Así que vemos cosas como la fecha, hora, latitud, longitud, todas las columnas diferentes, y luego los valores se muestran muy bien para mí aquí, sólo para que yo pueda verlo.

Pero si realmente lo descargo, este es el aspecto del conjunto de datos. Se acaba de abrir en código VS. Es sólo un montón de valores separados por comas.

---

## Trabajando con Pandas

De acuerdo. Esta es una introducción rápida a la idea de CSV. Trabajemos ahora con Pandas para leer algunos de estos datos.

### Importar Pandas

Primero, importamos Pandas:

```python
import pandas as pd
```

### Leer un archivo CSV

Para leer un archivo CSV, usamos la función `read_csv()`:

```python
# Leer un archivo CSV
datos = pd.read_csv('ruta/al/archivo.csv')

# Mostrar las primeras filas
print(datos.head())
```

### Leer un archivo CSV con delimitadores diferentes

Si el archivo CSV usa un delimitador diferente, como el pipe (`|`), podemos especificarlo con el parámetro `sep`:

```python
# Leer un archivo CSV con pipe como delimitador
datos = pd.read_csv('ruta/al/archivo.csv', sep='|')
```

---

## Conclusión

En esta masterclass, hemos cubierto:
- Qué es Pandas y su propósito.
- La importancia de los conjuntos de datos basados en texto.
- El formato CSV y su estructura básica.
- Ejemplos de conjuntos de datos CSV, incluyendo variaciones con diferentes delimitadores.
- Cómo encontrar y descargar conjuntos de datos en Kaggle.
- Cómo leer y trabajar con archivos CSV en Pandas.

Ahora estás listo para empezar a explorar y manipular tus propios conjuntos de datos con Pandas. ¡Manos a la obra!

---

### Recursos adicionales
- [Documentación oficial de Pandas](https://pandas.pydata.org/docs/)
- [Kaggle Datasets](https://www.kaggle.com/datasets)
- [Tutoriales de Pandas en YouTube](https://www.youtube.com/results?search_query=pandas+python)