# Series y marcos de datos en `Pandas`.

Comencemos importando la librería `pandas` con el alias `pd`.

In [1]:
import pandas as pd

Pandas maneja dos tipos de datos.
- ***Pandas series***.
    - Arreglo unidimensional indexado
    - Búsqueda por índice
    - *Slicing*.
    - Operaciones aritméticas
    - Distintos tipos de datos.
    - Se asemeja a un arreglo o vector de `Numpy`.
- ***Pandas data frame***.
    - Estructura principal.
    - Arreglo de dos dimensiones.
    - Organización por índice
        - Columnas. El índice es el nombre de las columnas.
        - Filas. Lo podemos asignar o puede ser con números enteros arrancando en cero.
    - *Slicing*.
    - Operaciones aritméticas.
    - Distintos tipos de datos.
    - Tamaño variable.
    - Memoria óptima.

## Definición manual de una serie de `Pandas`.

A continuación vamos a crear de forma manual una serie de pandas. Para ello, basta con definir un lista con los elementos de la serie. Nótese que se debe agregar un parámetro llamado `index`, con el cual se deja documentado el índice que se le asociará a cada elemento correspondiente de la serie. Dado el caso que no se indice el `index`, tomará una lista por omisión de números enteros consecutivos que comienza en cero.

In [2]:
pd.Series(['Navas', 'Mbappe', 'Neymar', 'Messi'],
          index = [1, 7, 10, 30])

1      Navas
7     Mbappe
10    Neymar
30     Messi
dtype: object

Una forma alternativa de hacer lo anterior es con ayuda de un **dicionario**:

In [4]:
dicc = {1: 'Navas', '7': 'Mbappe', '10': 'Neymar', 30: 'Messi'}
pd.Series(dicc)

1      Navas
7     Mbappe
10    Neymar
30     Messi
dtype: object

# Definición manual de un marco de datos de `Pandas`

Se puede definir un marco de datos con `Pandas` usando diccionarios, donde los valores asociados a cada llave corresponden a las observaciones ligadas a ese valor, que será una columna. Es importante hacerlo con atención, ya que cada elemento de todas las listas con un mismo índice hará parte de una misma fila, lo cual implica que todos los elementos deben tener la misma longitud.

In [6]:
dicc_df = {
    'Jugador': ['Navas', 'Mbappe', 'Neymar', 'Messi'],
    'Altura': [183.0, 170.0, 170.0, 165.0],
    'Goles': [2, 28, 30, 14]
}
dicc_df

{'Jugador': ['Navas', 'Mbappe', 'Neymar', 'Messi'],
 'Altura': [183.0, 170.0, 170.0, 165.0],
 'Goles': [2, 28, 30, 14]}

Se puede ver que al imprimir el diccionario, no tiene una estructura legible en forma de tabla o de matriz. Para ello, se debe usar la función `pd.DataFrame()`.

In [7]:
pd.DataFrame(dicc_df)

Unnamed: 0,Jugador,Altura,Goles
0,Navas,183.0,2
1,Mbappe,170.0,28
2,Neymar,170.0,30
3,Messi,165.0,14


¡Ahora tenemos una estructura ordenada! Ahora bien, llama la atención que cada fila tiene un índice asignado comenzando con cero. Si queremos definir de forma manual el índice para cada observación, podemos usar el parámetro `index`.

In [8]:
pd.DataFrame(dicc_df, index = [1, 7, 10, 30])

Unnamed: 0,Jugador,Altura,Goles
1,Navas,183.0,2
7,Mbappe,170.0,28
10,Neymar,170.0,30
30,Messi,165.0,14


¡Y ya está!