# Introducción a Pandas

A continuación vamos a introducir las principales funciones de pandas.

El primer paso es importar la librería como pd.

In [4]:
import pandas as pd

# Creación de datos

En primer lugar, vamos a empezar creando los objetos desde cero. Muchas veces, contaréis con archivos preexistentes. Por ejemplo los datos en un archivo .csv o tendréis acceso a ellos mediante una API. 

Primero vamos a hablar de los dos objetos principales de pandas:  "DataFrame" y "Serie".

## DataFrame

Un DataFrame es una tabla. Contiene un array de entradas individuales, cada una de las cuales tiene un valor determinado. Cada entrada corresponde a una fila (o registro) y a una columna.

Pongamos un ejemplo de un DataFrame sencillo:

In [2]:
pd.DataFrame({'Bob': ['I liked it.', 'It was awful.'], 'Sue': ['Pretty good.', 'Bland.']})

Unnamed: 0,Bob,Sue
0,I liked it.,Pretty good.
1,It was awful.,Bland.


Laa función para crear estos objetos llamados dataframes es: pd.DataFrame(). Para crear estos objetos se utiliza un diccionario donde las llaves corresponden a las columnas del dataframe (en este caso las columnas son Bob y Sue) y la lista de valores corresponde a la información que aparece en las distintas filas. Esta es la manera más sencilla de crear un dataframe desde cero.

También tenemos los valores del índice numérico que nos sirve para identificar la fila correspondiente. 0 corresponde a la primera fila y así sucesivamente.

En lugar de utilizar los valores numéricos, podemos asignar valores personalizadas al Índice:


In [5]:
pd.DataFrame({'Bob': ['I liked it.', 'It was awful.'], 
              'Sue': ['Pretty good.', 'Bland.']},
             index=['Product A', 'Product B'])

Unnamed: 0,Bob,Sue
Product A,I liked it.,Pretty good.
Product B,It was awful.,Bland.


Pandas es una librería o biblioteca muy extensa, por eso es necesario aprender a leer y entender la documentación. Aquí tenéis un acceso para empezar a explorar y conocer mejor algunas de estas funciones:

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html?highlight=dataframe#pandas.DataFrame

También se puede acceder a la información utilizando "?" y podremos acceder directamente a la documentación

In [7]:
? pd.DataFrame

[0;31mInit signature:[0m
 [0mpd[0m[0;34m.[0m[0mDataFrame[0m[0;34m([0m[0;34m[0m
[0;34m[0m    [0mdata[0m[0;34m=[0m[0;32mNone[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mindex[0m[0;34m:[0m [0;34m'Axes | None'[0m [0;34m=[0m [0;32mNone[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mcolumns[0m[0;34m:[0m [0;34m'Axes | None'[0m [0;34m=[0m [0;32mNone[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mdtype[0m[0;34m:[0m [0;34m'Dtype | None'[0m [0;34m=[0m [0;32mNone[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mcopy[0m[0;34m:[0m [0;34m'bool | None'[0m [0;34m=[0m [0;32mNone[0m[0;34m,[0m[0;34m[0m
[0;34m[0m[0;34m)[0m[0;34m[0m[0;34m[0m[0m
[0;31mDocstring:[0m     
Two-dimensional, size-mutable, potentially heterogeneous tabular data.

Data structure also contains labeled axes (rows and columns).
Arithmetic operations align on both row and column labels. Can be
thought of as a dict-like container for Series objects. The primary
pandas data 

## Series

Una Serie, por el contrario, es una secuencia de valores de datos. Si un DataFrame es una tabla, una Serie es una lista. Y puede considerarse una columna del DataFrame. La manera más sencilla de crear una serie es con una lista:

In [10]:
pd.Series([30, 35, 40])

0    30
1    35
2    40
dtype: int64

A una Serie también se le puede asignar un índice, aunque no tiene un nombre de columna como tal.

In [9]:
pd.Series([30, 35, 40], index=['2015 Sales', '2016 Sales', '2017 Sales'], name='Product A')

2015 Sales    30
2016 Sales    35
2017 Sales    40
Name: Product A, dtype: int64

# Lectura de archivos de datos

Como decía antes, lo más habitual será que ya contemos con un archivo y tengamos que importarlo a Python para crear un pd.DataFrame.

Los datos pueden ser almacenados en cualquiera de las diferentes formas y formatos. El más básico de ellos es el humilde archivo CSV. Cuando abres un archivo CSV obtienes algo parecido a esto:


Un archivo CSV es una tabla de valores separados por comas. De ahí su nombre: "Valores separados por comas", o CSV.

Dejemos ahora a un lado nuestros conjuntos de datos de juguete y veamos qué aspecto tiene un conjunto de datos real cuando lo leemos en un DataFrame. Utilizaremos la función pd.read_csv() para leer los datos en un DataFrame. Esto va así: