# Trabajando con Pandas

Bueno, antes de trabajar con Pandas, entendamos qué es.

Pandas es una librería de análisis y manipulación de datos. Por si acaso, aquí está la documentación de pandas -> https://pandas.pydata.org/docs/getting_started/index.html

El tipo de dato con el que pandas trabaja es **DataFrame**. Cada DataFrame está compuesto por otro tipo de dato llamado **Series**.

El DataFrame es un arreglo unidimensional indexado, como los que habíamos estado trabajando con Numpy (porque, de hecho, Pandas en el fondo trabaja con Numpy). También, permite buscar por índice, y hacer slicing. Además, maneja más tipos de dato que Numpy, así que las tareas que vayamos a hacer serán más cómodas, rápidas, y eficientes con el uso de la memoria.

Por otro lado, el **DataFrame** tiene una estructura de tabla similar a los arreglos matriciales de Numpy. Esta es la característica principal de Pandas, el eje central. También, permite buscar datos por el índice, ya sea de la columna o de la fila. También soporta distintos tipos de datos, soporta operaciones aritméticas, y es de tamaño variable. Todo muy bonito la verdad.

Toda esta magia empieza con esta línea de código:

In [2]:
import pandas as pd

Para crear nuestra primera serie, indicamos el array de datos que queremos usar, y luego el índice que queramos que tenga cada elemento.

In [8]:
players = pd.Series(['Navas', 'Mbappe', 'Neymar', 'Messi'],
          index=[1, 7, 10, 30])
players

1      Navas
7     Mbappe
10    Neymar
30     Messi
dtype: object

Si no queremos o no sabemos cómo indexar nuestros elementos, podemos simplemente omitir el argumento ``index`` y dejar que Pandas los asigne.

In [7]:
players = pd.Series(['Navas', 'Mbappe', 'Neymar', 'Messi'])
players

0     Navas
1    Mbappe
2    Neymar
3     Messi
dtype: object

También, podemos indicarle el índice y los valores mediante un diccionario.

In [14]:
dict_players = {
    1: 'Navas',
    7: 'Mbappe',
    10: 'Neymar',
    30: 'Messi'
}

players = pd.Series(dict_players)
players

1      Navas
7     Mbappe
10    Neymar
30     Messi
dtype: object

Y claro, podemos hacer slicing.

In [18]:
players[:3]

1      Navas
7     Mbappe
10    Neymar
dtype: object

Ahora, si queremos tener un array con más datos, lo que tenemos que usar es un DataFrame. Así lo hacemos:

In [21]:
players_data = {
    'Nombres': ['Navas', 'Mbappe', 'Neymar', 'Messi'],
    'Altura': [183., 177., 174., 165.],
    'Goles': [30, 45, 140, 270]
}

df_players = pd.DataFrame(players_data)
df_players

Unnamed: 0,Nombres,Altura,Goles
0,Navas,183.0,30
1,Mbappe,177.0,45
2,Neymar,174.0,140
3,Messi,165.0,270


Podemos ver el nombre de las columnas de la tabla.

In [22]:
df_players.columns

Index(['Nombres', 'Altura', 'Goles'], dtype='object')

También el índice.

In [23]:
df_players.index

RangeIndex(start=0, stop=4, step=1)

Y, como en el fondo estamos trabajando con tipos de Numpy, podemos ver la cantidad de dimensiones o la forma.

In [24]:
df_players.ndim

2

In [25]:
df_players.shape

(4, 3)