# Introducción

En este micro-curso, aprenderás todo sobre **pandas**, la librería de Python más popular para análisis de datos.

A lo largo del camino, completarás varios ejercicios prácticos con datos del mundo real. Te recomendamos que trabajes en los ejercicios mientras lees los tutoriales correspondientes.

En este tutorial, aprenderás cómo crear tus propios datos, así como trabajar con datos que ya existen.

# Empezando

Para usar pandas, normalmente comenzarás con la siguiente línea de código:

In [None]:
import pandas as pd

# Creando datos

Hay dos objetos fundamentales en pandas: el **DataFrame** y la **Series**.

## DataFrame

Un DataFrame es una tabla. Contiene un arreglo de entradas individuales, cada una de las cuales tiene un valor determinado. Cada entrada corresponde a una fila (o registro) y una columna.

Por ejemplo, considera el siguiente DataFrame simple:

In [None]:
pd.DataFrame({'Yes': [50, 21], 'No': [131, 2]})

En este ejemplo, la entrada "0, No" tiene el valor 131. La entrada "0, Yes" tiene un valor de 50, y así sucesivamente.

Las entradas de un DataFrame no están limitadas a enteros. Por ejemplo, aquí hay un DataFrame cuyos valores son cadenas de texto:

In [None]:
pd.DataFrame({'Bob': ['I liked it.', 'It was awful.'],
              'Sue': ['Pretty good.', 'Bland.']})

Estamos usando el constructor `pd.DataFrame()` para generar estos objetos DataFrame. La sintaxis para declarar uno nuevo es un diccionario cuyas claves son los nombres de las columnas (`Bob` y `Sue` en este ejemplo), y cuyos valores son una lista de entradas. Esta es la forma estándar de construir un nuevo DataFrame, y la que probablemente encontrarás más frecuentemente.

El constructor diccionario-lista asigna valores a las etiquetas de columna, pero simplemente usa un conteo ascendente desde 0 (0, 1, 2, 3, ...) para las etiquetas de fila. A veces esto está bien, pero a menudo querremos asignar estas etiquetas nosotros mismos.

La lista de etiquetas de fila usadas en un DataFrame se conoce como **Index**. Podemos asignarle valores usando un parámetro `index` en nuestro constructor:

In [None]:
pd.DataFrame({'Bob': ['I liked it.', 'It was awful.'],
              'Sue': ['Pretty good.', 'Bland.']},
             index=['Product A', 'Product B'])

## Series

Una Series, por el contrario, es una secuencia de valores de datos. Si un DataFrame es una tabla, una Series es una lista. Y de hecho puedes crear una con nada más que una lista:

In [None]:
pd.Series([1, 2, 3, 4, 5])

Una Series es, en esencia, una sola columna de un DataFrame. Así que puedes asignar etiquetas de fila a la Series de la misma manera que antes, usando un parámetro `index`. Sin embargo, una Series no tiene un nombre de columna, solo tiene un nombre general:

In [None]:
pd.Series([30, 35, 40], index=['2015 Sales', '2016 Sales', '2017 Sales'], name='Product A')

La Series y el DataFrame están íntimamente relacionados. Es útil pensar en un DataFrame como simplemente un montón de Series "pegadas juntas". Veremos más de esto en la siguiente sección de este tutorial.

# Leyendo archivos de datos

Ser capaz de crear un DataFrame o Series a mano es útil. Pero la mayor parte del tiempo, no estaremos creando nuestros propios datos manualmente. En cambio, trabajaremos con datos que ya existen.

Los datos pueden almacenarse en muchas formas y formatos diferentes. El más básico de estos es el humilde archivo CSV. Cuando abres un archivo CSV obtienes algo que se ve así:

```
Product A,Product B,Product C,
30,21,9,
35,34,1,
41,11,11
```

Un archivo CSV es una tabla de valores separados por comas. De ahí el nombre: "Comma-Separated Values", o CSV.

Ahora dejemos a un lado nuestros datasets de juguete y veamos cómo se ve un dataset real cuando lo leemos en un DataFrame. Usaremos la función `pd.read_csv()` para leer los datos en un DataFrame. Esto funciona así:

In [None]:
# Primero creamos un archivo CSV de ejemplo para este tutorial
import pandas as pd

# Crear datos de ejemplo sobre vinos
wine_data = {
    'country': ['Italy', 'Portugal', 'US', 'US', 'France', 'Spain', 'Italy', 'Chile', 'Argentina', 'Australia'],
    'description': [
        'Aromas include tropical fruit, broom, brimstone and dried herb...',
        'This is ripe and fruity, a wine that is smooth while still structured...',
        'Tart and snappy, the flavors of lime flesh and rind dominate...',
        'Pineapple rind, lemon pith and orange blossom start off the aromas...',
        'Much like the regular bottling from 2012, this comes across as rather rough...',
        'Blackberry and raspberry aromas show a typical Navarran whiff of green herbs...',
        'Here is a bright, informal red that opens with aromas of candied berry...',
        'This has great depth of flavor with its fresh apple and pear fruits...',
        'Ripe fruit aromas of peach and apricot open this wine...',
        'Savory dried thyme notes accent sunnier flavors of preserved lemon...'
    ],
    'points': [87, 87, 87, 87, 87, 87, 87, 87, 87, 87],
    'price': [None, 15.0, 14.0, 13.0, 65.0, 15.0, None, 16.0, 25.0, 18.0],
    'variety': ['White Blend', 'Portuguese Red', 'Pinot Gris', 'Riesling', 'Pinot Noir',
                'Tempranillo Blend', 'Sangiovese', 'Chardonnay', 'Malbec', 'Sauvignon Blanc'],
    'winery': ['Nicosia', 'Quinta dos Avidagos', 'Rainstorm', 'St. Julian', 'Sweet Cheeks',
               'Tandem', 'Terre di Giurfo', 'Leyda', 'Valentin Bianchi', 'Richard Hamilton']
}

df = pd.DataFrame(wine_data)
df.to_csv('wine-reviews.csv', index=True)
print("Archivo CSV creado exitosamente")

In [None]:
wine_reviews = pd.read_csv('wine-reviews.csv')

Podemos usar el atributo `shape` para verificar qué tan grande es el DataFrame resultante:

In [None]:
wine_reviews.shape

Así que nuestro DataFrame tiene 10 registros divididos en 7 columnas diferentes.

Podemos examinar el contenido del DataFrame resultante usando el comando `head()`, que toma las primeras cinco filas:

In [None]:
wine_reviews.head()

La función `pd.read_csv()` está bien equipada, con más de 30 parámetros opcionales que puedes especificar. Por ejemplo, puedes ver en este dataset que el archivo CSV tiene un índice incorporado, que pandas no detectó automáticamente. Para hacer que pandas use esa columna para el índice (en lugar de crear uno nuevo desde cero), podemos especificar un `index_col`.

In [None]:
wine_reviews = pd.read_csv('wine-reviews.csv', index_col=0)
wine_reviews.head()

# Tu turno

Si aún no lo has hecho, lee la breve descripción general de este curso y luego comienza tu primera codificación en el primer ejercicio.

---

# Ejercicios

## Ejercicio 1: Crea un DataFrame

En la siguiente celda, crea un DataFrame `fruits` que se vea así:

```
            Apples  Bananas
2017 Sales      35       21
2018 Sales      41       34
```

In [None]:
# Tu código aquí
fruits = pd.DataFrame({
    'Apples': [35, 41],
    'Bananas': [21, 34]
}, index=[2017, 2018], columns=['Apples', 'Bananas'])

## Ejercicio 2: Crea una Series

Crea una variable `ingredients` con una Series que se vea así:

```
Flour     4 cups
Milk       1 cup
Eggs     2 large
Spam       1 can
Name: Dinner, dtype: object
```

In [None]:
# Tu código aquí
fruits = pd.DataFrame({
    'Apples': [35, 41],
    'Bananas': [21, 34]
}, index=[2017, 2018], columns=['Apples', 'Bananas'])

Unnamed: 0,Dinner
Flour,4 cups
Milk,1 cup
Eggs,2 large
Spam,1 can


## Ejercicio 3: Lee un archivo CSV

Lee el archivo CSV que creamos anteriormente (`wine-reviews.csv`) en un DataFrame llamado `reviews`.

In [None]:
# Tu código aquí
reviews = pd.read_csv('wine-reviews.csv')

Unnamed: 0,country,description,points,price,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",87,,White Blend,Nicosia
1,Portugal,"This is ripe and fruity, a wine that is smooth...",87,15.0,Portuguese Red,Quinta dos Avidagos
2,US,"Tart and snappy, the flavors of lime flesh and...",87,14.0,Pinot Gris,Rainstorm
3,US,"Pineapple rind, lemon pith and orange blossom ...",87,13.0,Riesling,St. Julian
4,France,"Much like the regular bottling from 2012, this...",87,65.0,Pinot Noir,Sweet Cheeks


## Ejercicio 4: Forma del DataFrame

¿Cuántas filas y columnas tiene el DataFrame `reviews`? Guarda tu respuesta en la variable `shape_reviews`.

In [None]:
# Tu código aquí
shape_reviews = (reviews.shape[0], reviews.shape[1])
print(shape_reviews)

El DataFrame tiene 10 filas y 6 columnas


## Ejercicio 5: Primeras filas

Muestra las primeras 3 filas del DataFrame `reviews`.

In [None]:
# Tu código aquí
shape_reviews = reviews.shape
print("El DataFrame reviews tiene {} filas y {} columnas.".format(shape_reviews[0],shape_reviews[1]))


In [None]:
# Solución

Unnamed: 0,country,description,points,price,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",87,,White Blend,Nicosia
1,Portugal,"This is ripe and fruity, a wine that is smooth...",87,15.0,Portuguese Red,Quinta dos Avidagos
2,US,"Tart and snappy, the flavors of lime flesh and...",87,14.0,Pinot Gris,Rainstorm


## Ejercicio 6: Columnas específicas

Lee el archivo CSV `wine-reviews.csv` de nuevo, pero esta vez lee solo las columnas `country`, `variety` y `price`. Guarda el resultado en `reviews_subset`.

In [None]:
# Tu código aquí
reviews_subset = pd.read_csv('wine-reviews.csv', usecols=['country', 'variety', 'price'])

Unnamed: 0,country,variety,price
0,Italy,White Blend,
1,Portugal,Portuguese Red,15.0
2,US,Pinot Gris,14.0
3,US,Riesling,13.0
4,France,Pinot Noir,65.0


## Ejercicio 7: Guardar un DataFrame

Crea un nuevo DataFrame con información sobre 3 libros (título, autor, año, precio). Después guárdalo como un archivo CSV llamado `books.csv`.

In [None]:
# Tu código aquí
data = {'title': ['Harry Potter', 'The Lord of the Rings', 'Pride and Prejudice'],
         'author': ['J.K. Rowling', 'J.R.R. Tolkien', 'Jane Austen'],
         'year': [1997, 1954, 1813],
         'price': [10.99, 7.99, 12.99]}

df = pd.DataFrame(data)

df.to_csv('books.csv', index=False)


Archivo 'books.csv' creado exitosamente

Contenido:
                 titulo                   autor   año  precio
0  Cien años de soledad  Gabriel García Márquez  1967   15.99
1                  1984           George Orwell  1949   12.99
2            El Quijote     Miguel de Cervantes  1605   18.50


# ¡Felicidades!

Has completado la primera lección de pandas. Ahora entiendes:

- La diferencia entre un DataFrame y una Series
- Cómo crear DataFrames y Series desde cero
- Cómo leer archivos CSV en un DataFrame
- Cómo explorar datos con `shape` y `head()`
- Cómo guardar tus DataFrames como archivos CSV

En la próxima lección, aprenderás sobre indexación, selección y asignación en pandas.