# Introducción a los objetos Pandas

A un nivel muy básico, los objetos Pandas pueden considerarse como **versiones mejoradas de arrays estructurados NumPy en los que las filas y columnas se identifican con etiquetas en lugar de simples índices enteros.**
Como veremos a lo largo de este capítulo, Pandas proporciona una gran cantidad de herramientas útiles, métodos y funcionalidades sobre las estructuras de datos básicas, pero **casi todo lo que sigue requerirá una comprensión de lo que son estas estructuras**.
Por lo tanto, antes de seguir adelante, vamos a introducir estas tres estructuras de datos fundamentales de Pandas: ``Series``, ``DataFrame``, y ``Index``.

> **OBJETOS DE PANDAS:**

- SERIES 
- DataFrame
- INDEX

Comenzaremos nuestras sesiones de código con las importaciones estándar de NumPy y Pandas:

In [4]:
import numpy as np
import pandas as pd

## 1er OBJETO DE PANDAS = The Pandas **Series** Object

Una ``Serie`` de Pandas es un **array unidimensional de datos indexados**.
Se puede **crear a partir de una lista o array o de un diccionario**, y te **imprime los índices **también

*LAS SERIES DE PANDAS PUEDEN CREARSE DE DIFERENTES MANERAS:*
1. **ARRAY o LISTA** con **índices ímplicitos**
2. **ARRAY o LISTA** con **índices explícitos**
3. **DICCIONARIO** con **clave y valor**

> 1. **ARRAY o LISTA** con **índices ímplicitos**

Creo una serie a partir de una lista o array, y crea la serie con los índices naturales 

In [33]:
# Alturas de clase
data = pd.Series([1.5, 1.6, 1.75, 1.80])
data

0    1.50
1    1.60
2    1.75
3    1.80
dtype: float64

> 2. **ARRAY o LISTA** con **índices explícitos**

Teniendo la misma longitud, se le asigna a vada valor el índice dado.
Deben tener la misma longitud/estructura siempre. 

La única excepción es cuando de valor/dato pongo un solo escalar, y le asigno varios índices, ya que me va a crear el mismo dato por la misma cantidad de veces que haya distintos índices

In [24]:
# ARRAY o LISTA = PRIMERO DEFINO VALORES, Y LUEGO ÍNDICES >> NO todo junto como los dict
data = pd.Series([1.5, 1.6, 1.75, 1.80],
                 index=['Jane', 'Joe', 'Susan', 'Mike'])
data

Jane     1.50
Joe      1.60
Susan    1.75
Mike     1.80
dtype: float64

> 3. **DICCIONARIO** con **clave y valor**

Creo un diccionario, y luego lo convierto a una serie, ya que la clave-valor funciona como: el índice y el dato. 

En los diccionarios puede pasarse directamente el índice y el dato, lo que es distinto al formato de los arrays o listas, que primero se pasan los datos y luego los índices

In [21]:
# EJEMPLO DICCIONARIO Y LUEGO CONVERSIÓN A SERIE
population_dict = {'California': 38332521,
                   'Texas': 26448193,
                   'New York': 19651127,
                   'Florida': 19552860,
                   'Illinois': 12882135}
# print(population_dict)
population = pd.Series(population_dict)
population

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

In [None]:
# EJEMPLO DICCIONARIO CON NAME=
area = pd.Series({'Alaska': 1723337,
                  'Texas': 695662,
                  'California': 423967},
                 name='area')

population = pd.Series({'California': 38332521,
                        'Texas': 26448193,
                        'New York': 19651127},
                       name='population')

In [None]:
# EJEMPLO SERIE DIRECTAMENTE CON FORMATO DICCIONARIO
pd.Series({2:'a', 1:'b', 3:'c'})

Como vemos en la salida, la ``Series`` envuelve tanto una secuencia de valores como una secuencia de índices, a los que podemos acceder con los atributos ``values`` e ``index``.
Los ``valores`` son simplemente una matriz NumPy familiar:

In [30]:
data.values

array([1.5 , 1.6 , 1.75, 1.8 ])

El ``índice`` es un objeto tipo array del tipo ``pd.Índice``, del que hablaremos con más detalle en un momento.

In [31]:
data.index

RangeIndex(start=0, stop=4, step=1)

Al igual que con una matriz NumPy, se puede acceder a los datos por el NOMBRE del índice (NO la posición) asociado mediante la conocida notación de corchetes de Python:

In [34]:
data = pd.Series([1.5, 1.6, 1.75, 1.80])
data

0    1.50
1    1.60
2    1.75
3    1.80
dtype: float64

In [35]:
data[1] # Con este formato, NO SLICING se llama al nombre del índice, no a la posición

1.6

Puedo extraer de la serie una copia con determinados elementos, y asignarlos a otra variable, y sigue respetando los números de los índices originales:

In [36]:
otra_serie = data[1:4].copy()
print(otra_serie)

1    1.60
2    1.75
3    1.80
dtype: float64


Pero, al llamar una parte de esa nueva serie, la posición comienza desde 0 como siempre:

In [11]:
otra_serie[1:2]

2    1.75
dtype: float64

Y si le paso un índice para que me muestre el valor, y no existe, tomará el número del índice, siempre y cuando exista también, si no existe número de índice ni posición, da error!:

In [37]:
otra_serie[3]

1.8

> **IMPORTANTE !! DIFERENCIAS**

- `serie[2]` = Esto muestra el valor según el número del índice que es el Key-Nombre del índice
- `serie[2:3]` = Muestra un pedazo de la serie según posición, cuando hacemos Slicing

In [38]:
otra_serie[1:2] # Sería el índice 1 (no incluye el 2)

2    1.75
dtype: float64

In [39]:
otra_serie[1] # Sería el valor del índice número 1, y NO del índice real de Python, que sería el 0 en este caso

1.6

Como veremos, sin embargo, **la ``Serie`` de Pandas es mucho más general y flexible que el array unidimensional de NumPy** que emula.

### ``Series`` como matriz NumPy generalizada

Por lo que hemos visto hasta ahora, puede parecer que el objeto ``Series`` es básicamente intercambiable con un array unidimensional de NumPy.
**La diferencia esencial es la presencia del índice**: mientras que el array de Numpy tiene un índice entero *implícitamente definido* usado para acceder a los valores, las ``Series`` de Pandas tienen un índice ***explícitamente definido*** asociado a los valores.

Esta definición explícita del índice proporciona al objeto ``Series`` capacidades adicionales. Por ejemplo, el índice no necesita ser un entero, sino que puede consistir en valores de cualquier tipo deseado.
Por ejemplo, **si lo deseamos, podemos utilizar cadenas como índice:**

In [40]:
data = pd.Series([1.5, 1.6, 1.75, 1.80],
                 index=['Jane', 'Joe', 'Susan', 'Mike'])
data

Jane     1.50
Joe      1.60
Susan    1.75
Mike     1.80
dtype: float64

In [41]:
data.values

array([1.5 , 1.6 , 1.75, 1.8 ])

In [42]:
data.index

Index(['Jane', 'Joe', 'Susan', 'Mike'], dtype='object')

Y el acceso al artículo funciona como se esperaba:

In [43]:
data['Susan']

1.75

Incluso podemos utilizar índices no contiguos o no secuenciales:

In [44]:
data = pd.Series([1.5, 1.6, 1.75, 1.80],
                 index=[2, 5, 3, 7])
data

2    1.50
5    1.60
3    1.75
7    1.80
dtype: float64

In [45]:
data[5]

1.6

Las series funcionan como un diccionario, es decir, tienen esos atributos también. Por ejemplo, podría usar el **.get** para que me devuelva un valor, y si no está devuelva lo que le digo como excepción: 

In [28]:
print(data.get(2))
print(data.get(25,"No existe ese nombre de índice"))

1.5
No existe ese nombre de índice


### Series como diccionario especializado

De esta manera, puedes pensar en una ``Serie`` de Pandas como una especialización de un diccionario de Python.
Un diccionario es una estructura que asigna claves arbitrarias a un conjunto de valores arbitrarios, y una ``Serie`` es una estructura que asigna claves tipadas a un conjunto de valores tipados.
Esta tipificación es importante: al igual que el código compilado de tipo específico detrás de un array de NumPy hace que sea más eficiente que una lista de Python para ciertas operaciones, la información de tipo de una ``Series`` de Pandas hace que sea mucho más eficiente que los diccionarios de Python para ciertas operaciones.

La analogía ``Series``-como-diccionario puede hacerse aún más clara construyendo un objeto ``Series`` directamente desde un diccionario Python:

In [5]:
population_dict = {'California': 38332521,
                   'Texas': 26448193,
                   'New York': 19651127,
                   'Florida': 19552860,
                   'Illinois': 12882135}
# print(population_dict)
population = pd.Series(population_dict)
population

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

Por defecto, se creará una ``Serie`` donde el índice se extrae de las claves ordenadas.
A partir de aquí, se puede realizar el típico acceso a ítems estilo diccionario:

In [6]:
population['California']

38332521

Sin embargo, a diferencia de un diccionario, ``Series`` también admite operaciones de tipo matriz, como el troceado:

In [9]:
population['California':'Florida']

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
dtype: int64

- Cuandon hacemos **troceado por el índice**, SÍ incluye el último, ya que NO es la posición (que ahí sí el último no lo incluye).
- Por eso, se recomienda no poner números como índices (salvo que sea estrcitamente necesario), ya que podría confundirse la posición y el índice al llamarlos

Discutiremos algunas de las peculiaridades de Pandas en indexación y selección en [Data Indexing and Selection](03.02-Data-Indexing-and-Selection.ipynb).

### Construcción de objetos Serie

Ya hemos visto algunas formas de construir una ``Serie`` de Pandas desde cero; todas ellas son alguna versión de lo siguiente:

```python
pd.Series([datos], 
           index=[índices])
```

Donde ``index`` es un argumento opcional, y ``data`` puede ser una de muchas entidades.

Cuando creamos la serie y los índices deben tener la misma longitud/estructura, porque si no da error, ya que no sería igual la cantidad de elementos y de índices. Salvo, ejemplo más abajo, que se crea UN mismo escalar, con distintos índices.

In [14]:
pd.Series([2, 4, 6],
           index= ["dos", "cuatro", "seis"]) # Sin esto, me pone los índices ímplicitos 0,1,etc

dos       2
cuatro    4
seis      6
dtype: int64

Por ejemplo, ``data`` puede ser una lista o un array NumPy, en cuyo caso ``index`` por defecto es una secuencia entera:

In [15]:
pd.Series([2, 4, 6])

0    2
1    4
2    6
dtype: int64

***EXCEPCIONES A LA MISMA LONGITUD DE ÍNDICES Y DATOS:***
1. ``data`` puede ser UN escalar, que se repite para llenar los índices especificados.
2. ``Series`` sólo se rellena con las claves identificadas explícitamente

> 1. ``data`` puede ser UN escalar, que se repite para llenar el índice especificado:

In [17]:
pd.Series(5, index=[100, 200, 300]) # Cada índice tiene el mismo valor

100    5
200    5
300    5
dtype: int64

``data`` puede ser un diccionario, en el que ``index`` toma por defecto las claves ordenadas del diccionario:

In [18]:
pd.Series({2:'a', 1:'b', 3:'c'})

2    a
1    b
3    c
dtype: object

> 2. `Series` sólo se rellena con las claves identificadas explícitamente

Tenga en cuenta que, en este caso, se deja fuera el 1 que no se especificó.
En este caso, el orden y resultado del índice puede fijarse explícitamente si se prefiere un resultado diferente:

In [46]:
pd.Series({2:'a', 1:'b', 3:'c'}, index=[3, 2])

3    c
2    a
dtype: object

## 2do OBJETO DE PANDAS = El objeto Pandas **DataFrame**

La siguiente estructura fundamental en Pandas es el ``DataFrame``.
Como el objeto ``Series`` discutido en la sección anterior, el ``DataFrame`` puede ser **pensado como una generalización de un array NumPy, o como una especialización de un diccionario Python.**
Ahora echaremos un vistazo a cada una de estas perspectivas.

### DataFrame como una matriz NumPy generalizada

**MATRIZ de NUMPY == DataFrame de PANDAS**

Si una ``Serie`` es un análogo de un array unidimensional con índices flexibles, un **`DataFrame` es un análogo de un array bidimensional con índices de fila flexibles y nombres de columna flexibles.**
Al igual que se puede pensar en una matriz bidimensional como una secuencia ordenada de columnas unidimensionales alineadas, se puede pensar en un ``DataFrame`` como una secuencia de objetos ``Series`` alineados.
Aquí, por "alineados" queremos decir que **comparten el mismo índice.**

Para demostrarlo, construyamos primero una nueva ``Serie`` que enumere el área de cada uno de los cinco estados comentados en la sección anterior:

In [52]:
population_dict = {'California': 38332521,
                   'Texas': 26448193,
                   'New York': 19651127,
                   'Florida': 19552860,
                   'Illinois': 12882135}

population = pd.Series(population_dict)
population

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

In [53]:
area_dict = {'California': 423967, 
             'Texas': 695662, 
             'New York': 141297,
             'Florida': 170312, 
             'Illinois': 149995}
area = pd.Series(area_dict)
area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
dtype: int64

In [49]:
print(population)

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64


In [50]:
print(area)

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
dtype: int64


> **CREACIÓN DE DATAFRAME** 

Ahora que tenemos el `area` junto con la serie ``population`` de antes, podemos utilizar un diccionario para construir un único objeto bidimensional que contenga esa información.
A las series creadas, le indicamos el nombre de cada una de las columnas:

In [75]:
# OPCIÓN 1 - Tipo DICCIONARIO = Creando clave para etiqueta columna y datos como valor
states = pd.DataFrame({'population': population,
                       'area': area})
states

Unnamed: 0,population,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


- **ÍNDICES** = Serían los nombres de los estados 
- **'POPULATION' y 'AREA'** = Nombres de las columnas 
- **population y area** = datos de cada serie

In [76]:
# OPCIÓN 2 = Especificando data= valores y columns=etiqueta columna
pd.DataFrame(data=population, columns=['population'])

Unnamed: 0,population
California,38332521
Texas,26448193
New York,19651127
Florida,19552860
Illinois,12882135


## **ATRIBUTOS DE DataFrame:**
1. `.index`: muestra los índices de los datos 
2. `.columns`: muestra las etiquetas/nombres de las columnas. También es un objeto index
3. `.values`: muestra los valores creados en las series
4. `.reset_index()` Crea una nueva columna con los índices anteriores y los trata como nuevos datos, y le asigna un nuevo índice con números según posición, a cada fila. 
5. `.info()` = muestra los índices, las columnas y los tipos de datos de un DataFrame

> 1. `.index`= muestra los índices de los datos por FILAS

Al igual que el objeto ``Series``, el ``DataFrame`` tiene un atributo ``index`` que da acceso a las etiquetas de índice:

In [61]:
states.index

Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object')

> 2. `.columns` = es el índice de las COLUMNAS

Además, el ``DataFrame`` tiene un atributo ``columns``, que es un objeto ``Index`` que contiene las etiquetas de las columnas:

In [62]:
states.columns

Index(['population', 'area'], dtype='object')

> 3. `.values`= muestra los valores creados en las series.

Devuelve los valores, sin las etiquetas de las columnas y de los índices, es una matriz de 2 dimensiones

In [63]:
states.values

array([[38332521,   423967],
       [26448193,   695662],
       [19651127,   141297],
       [19552860,   170312],
       [12882135,   149995]], dtype=int64)

Así, el ``DataFrame`` puede considerarse como una generalización de una matriz bidimensional NumPy, donde tanto las filas como las columnas tienen un índice generalizado para acceder a los datos.

### DataFrame como diccionario especializado

Del mismo modo, también podemos pensar en un ``DataFrame`` como una especialización de un diccionario.
Mientras que un diccionario asigna una clave a un valor, un ``DataFrame`` asigna un nombre de columna a una ``Serie`` de datos de columna.
Por ejemplo, pedir el atributo ``'area`` devuelve el objeto ``Series`` que contiene las áreas que hemos visto antes:

In [64]:
states['area']

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

> **ORDEN ÍNDICES = 1- ÍNDICES/ETIQUETAS COLUMNAS y 2- ÍNDICES FILAS**

Al ser indexado, puedo ver los datos en específico, entrando desde los índices, primero etiqueta de la columna y luego etiqueta del índice del dato:

In [67]:
states['area']['Florida']

170312

Antes creamos un DataFrame a partir de datos contenidos en series, si quiero crearlo desde 0, sin series, debo a los **datos** ponerle `corchetes[]` si no dará error, porque no sabe si las etiquetas son los índices o los nombres de las columnas. En este caso, pone los índices naturales, porque solo le paso las etiquetas de las columnas:

In [69]:
pd.DataFrame({'a': [1],
              'b': [2]})

Unnamed: 0,a,b
0,1,2


> ***2 formas de llamar por las etiquetas de las columnas:***

1- Sin variable creada, luego del pd.DataFrama

2- Con variable creada, en otra línea

In [70]:
# SIN VARIABLE

pd.DataFrame({'a': [1],
              'b': [2]})['a']

0    1
Name: a, dtype: int64

In [72]:
# CON VARIABLE
df = pd.DataFrame({'a': [1],
              'b': [2]})
df['a']

0    1
Name: a, dtype: int64

**Fíjate en el posible punto de confusión: en un array NumPy bidimensional, ``data[0]`` devolverá la primera *fila*. Para un ``DataFrame``, ``data['col0']`` devolverá la primera *columna*.**
Debido a esto, probablemente sea mejor pensar en los ``DataFrame`` como diccionarios generalizados que como arrays generalizados, aunque ambas formas de ver la situación pueden ser útiles.
Exploraremos formas más flexibles de indexar ``DataFrame``s en [Data Indexing and Selection](03.02-Data-Indexing-and-Selection.ipynb).

### **CONSTRUCCIÓN DE OBJETOS DATAFRAME**

Un ``DataFrame`` de Pandas se puede construir de varias maneras:
> 1. A partir de un único objeto Serie
> 2. A partir de una lista de diccionarios y Lista de Comprensión
> 3. A partir de un diccionario compuesto con objetos Series
> 4. A partir de una matriz NumPy bidimensional
> 5. A partir de una matriz estructurada NumPy

Aquí daremos varios ejemplos.

> #### 1. A partir de un único objeto Serie

Un ``DataFrame`` es una colección de objetos ``Series``, y se puede construir un ``DataFrame`` de una sola columna a partir de una única ``Series``:

In [73]:
print(population)

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64


In [77]:
pd.DataFrame(data=population, columns=['population'])

Unnamed: 0,population
California,38332521
Texas,26448193
New York,19651127
Florida,19552860
Illinois,12882135


In [79]:
pd.DataFrame(data=population)
# Sin etiqueta de columna, crea el DataFrame y le pone de nombre de columna cero = "0"

Unnamed: 0,0
California,38332521
Texas,26448193
New York,19651127
Florida,19552860
Illinois,12882135


> #### 2. A partir de una lista de diccionarios y Lista de Comprensión

Cualquier lista de diccionarios puede convertirse en un ``DataFrame``.
Usaremos una simple comprensión de lista para crear algunos datos:

In [80]:
data = [{'a': i, 'b': 2 * i}
        for i in range(3)]
data

[{'a': 0, 'b': 0}, {'a': 1, 'b': 2}, {'a': 2, 'b': 4}]

In [82]:
data = [{'a': i, 'b': 2 * i}
        for i in range(3)]
pd.DataFrame(data)

Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4


Incluso si faltan algunas claves en el diccionario, Pandas las rellenará con valores ``NaN`` = Not a Number (es decir, "no un número"):

In [83]:
pd.DataFrame([{'a': 1, 'b': 2}, {'b': 3, 'c': 4}])

Unnamed: 0,a,b,c
0,1.0,2,
1,,3,4.0


>>   Lo dividido entre `llaves{}` serían las distintas FILAS !!

In [85]:
pd.DataFrame([{'b': 2, 'a': 1}, {'b': 3, 'c': 4}]) # Prioriza el orden de las columnas declaradas

Unnamed: 0,b,a,c
0,2,1.0,
1,3,,4.0


- Cada clave-valor encerrado entre `llaves{}` son las filas. 
- Al habler las mismas claves reemplaza las repetidas, ya que RECORDAR que las claves en los diccionarios son únicas. 
- OJO! Es sensible a mayúsculas y minúsculas, si pongo misma clave en mayus y minus, creará 2 columnas distintas 

In [88]:
pd.DataFrame([{'b': 2, 'a': 1}, {'b': 3, 'c': 4}, {'C': 6, 'd': 7}])

Unnamed: 0,b,a,c,C,d
0,2.0,1.0,,,
1,3.0,,4.0,,
2,,,,6.0,7.0


##### Luego de los `parentesis()` del DataFrame, si pones un punto, te salen los MÉTODOS.

> Una de las opciones es `.fillna` > que rellena por el parámetro que le pase los NaN:

In [89]:
# Ejemplo .fillna()
pd.DataFrame([{'b': 2, 'a': 1}, {'b': 3, 'c': 4}]).fillna(99)

Unnamed: 0,b,a,c
0,2,1.0,99.0
1,3,99.0,4.0


> #### 3. A partir de un diccionario compuesto con objetos Series

Como hemos visto antes, un ``DataFrame`` también puede construirse a partir de un diccionario de objetos ``Series``:

In [86]:
pd.DataFrame({'population': population,
              'area': area})

Unnamed: 0,population,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


> #### 4. A partir de una matriz NumPy bidimensional

Dado un array bidimensional de datos, podemos crear un ``DataFrame`` con cualquier nombre de columna e índice especificado.
Si se omite, se utilizará un índice entero para cada uno:

In [90]:
np.random.seed(10) # Genero un "código"para esa secuencia de números random entre 0 y 1
np.random.rand(3, 2)

array([[0.77132064, 0.02075195],
       [0.63364823, 0.74880388],
       [0.49850701, 0.22479665]])

In [4]:
import pandas as pd
import numpy as np

- **Hay 2 formas de crear las columnas:**

In [5]:
# OPCIÓN 1
np.random.seed(10)
x = pd.DataFrame(data=np.random.rand(3, 2),
             columns=['Columna_1', 'Columna_2'],
             index=['a', 'b', 'c'])
x

Unnamed: 0,Columna_1,Columna_2
a,0.771321,0.020752
b,0.633648,0.748804
c,0.498507,0.224797


In [9]:
# OPCIÓN 2 - Mediante list
A = pd.DataFrame(np.random.randint(0, 20, (2, 2)),
                 columns=list('AB'))
A

Unnamed: 0,A,B
0,11,1
1,8,4


> `reset_index()` 

Crea una nueva columna con los índices anteriores, y le asigna un nuevo índice con números según posición, a cada fila. La nueva columna creada con los índices anteriores como si fuesen datos, se hace para no perder información > Si no nos interesa guardarlo, luego se puede borrar esa columna, pero por defecto siempre te la crea.

In [116]:
x_otroindice = x.reset_index() # Si quiero mantener nuevo índice, guardar en variable

In [117]:
x # DataFrame original

Unnamed: 0,Columna_1,Columna_2
a,0.771321,0.020752
b,0.633648,0.748804
c,0.498507,0.224797


In [120]:
x['Columna_1']['b'] # Llamo al dato por columna y luego índice de fila

0.6336482349262754

In [119]:
x_otroindice # DataFrame con nuevo indice luego de reset_index

Unnamed: 0,index,Columna_1,Columna_2
0,a,0.771321,0.020752
1,b,0.633648,0.748804
2,c,0.498507,0.224797


In [123]:
x_otroindice['Columna_1'][1] # Llamo al dato por columna y luego nuevo índice de fila

0.6336482349262754

> #### 5. A partir de una matriz estructurada NumPy

Cubrimos los arrays estructurados en [Datos estructurados: Arrays estructurados de NumPy](02.09-Datos-estructurados-NumPy.ipynb).
Un ``DataFrame`` de Pandas funciona de forma muy parecida a un array estructurado, y se puede crear directamente a partir de uno:

In [3]:
import pandas as pd

In [7]:
import numpy as np
A = np.zeros(3, dtype=[('A', 'i8'), ('B', 'f8'), ('C', 'f8')])
A

array([(0, 0., 0.), (0, 0., 0.), (0, 0., 0.)],
      dtype=[('A', '<i8'), ('B', '<f8'), ('C', '<f8')])

In [12]:
df_A = pd.DataFrame(A)

Si guardo el numpy array como un DataFrame en una variable, puedo luego utilizar los métodos de Pandas. Como por ejemplo, el .info() = que apareece los índices, las columnas y los tipos de datos de cada uno de ellos. 

> ##### **.info()** = muestra los índices, las columnas y los tipos de datos de un DataFrame

In [13]:
df_A.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   A       3 non-null      int64  
 1   B       3 non-null      float64
 2   C       3 non-null      float64
dtypes: float64(2), int64(1)
memory usage: 204.0 bytes


## 3er OBJETO DE PANDAS = El objeto **index** de Pandas

Hemos visto aquí que tanto los objetos ``Series`` como ``DataFrame`` contienen un *índice* explícito que te permite referenciar y modificar datos.
Este objeto ``Index`` es una estructura interesante en sí misma, y **puede considerarse como un *array inmutable* o como un *conjunto ordenado* (técnicamente un multi-conjunto, ya que los objetos ``Index`` pueden contener valores repetidos)**.
Estos puntos de vista tienen algunas consecuencias interesantes en las operaciones disponibles sobre los objetos ``Index``.
Como ejemplo sencillo, construyamos un ``Index`` a partir de una lista de enteros:

In [19]:
ind = pd.Index([2, 3, 5, 7, 11])
ind

Index([2, 3, 5, 7, 11], dtype='int64')

### Índice como array inmutable

El ``Index`` en muchos aspectos funciona como un array.
Por ejemplo, podemos utilizar la notación de indexación estándar de Python para recuperar valores o rebanadas:

In [20]:
ind[1]

3

In [21]:
ind[::2]

Index([2, 5, 11], dtype='int64')

Los objetos ``Index`` también tienen muchos de los **ATRIBUTOS** familiares de las matrices NumPy:

In [23]:
# SIZE:
print("Cantidad de elementos:", ind.size)
# SHAPE:
print("Cantidad de elementos en cada dimensión:", ind.shape)
# NDIM:
print("Número de dimensiones:", ind.ndim)
#DTYPE:
print("Tipo de datos:", ind.dtype)

Cantidad de elementos: 5
Cantidad de elementos en cada dimensión: (5,)
Número de dimensiones: 1
Tipo de datos: int64


In [24]:
ind_float = pd.Index([2., 3, 5, 7, 11])
print("Tipo de datos:", ind_float)
#Convierte todos a tipo float, y se ve en la impresión todos con decimal

Tipo de datos: Index([2.0, 3.0, 5.0, 7.0, 11.0], dtype='float64')


In [26]:
ind_string = pd.Index([2., '3', 5, 7, 11])
print("Tipo de datos:", ind_string)
# Convierte todos a String(object), por más que haya un float (2.0)

Tipo de datos: Index([2.0, '3', 5, 7, 11], dtype='object')


- **IMPORTANTE !! >> ** Una diferencia entre los objetos ``Index`` y las matrices NumPy es que los **ÍNDICES SON INMUTABLES**, es decir, no se pueden modificar por los medios normales:

In [None]:
ind[1] = 0 ### ERROR! Porque al ser inmutables, no se pueden cambiar los índices

**Esta inmutabilidad hace que sea más seguro compartir índices entre múltiples ``DataFrame``s y matrices, sin el potencial de efectos secundarios de la modificación inadvertida del índice.**

### Índice como conjunto ordenado

Los objetos Pandas están diseñados para facilitar operaciones como uniones entre conjuntos de datos, que dependen de muchos aspectos de la aritmética de conjuntos.
**El objeto ``Index`` sigue muchas de las convenciones utilizadas por la estructura de datos ``set`` incorporada en Python, de modo que las uniones, intersecciones, diferencias y otras combinaciones se pueden calcular de una manera familiar:**.

In [3]:
import pandas as pd
import numpy as np

In [38]:
indA = pd.Index([1, 3, 5, 7, 9])
indB = pd.Index([2, 3, 5, 7, 11])

INTERSECCIÓN = Es lo que coincide de dos elementos 

In [28]:
indA.intersection(indB) # intersection

Index([3, 5, 7], dtype='int64')

In [20]:
set(indA) & set(indB)

{3, 5, 7}

UNION = Es todo junto, pero sin repetición de iguales

In [26]:
indA.union(indB) # union

Index([1, 2, 3, 5, 7, 9, 11], dtype='int64')

In [16]:
set(indA) | set(indB)  

{1, 2, 3, 5, 7, 9, 11}

DIFERENCIA SIMÉTRICA = Es todo lo que está afuera la intersección, o sea, los elementos que no coinciden

In [27]:
indA.symmetric_difference(indB)# symmetric difference

Index([1, 2, 9, 11], dtype='int64')

In [19]:
set(indA) ^ set(indB) 

{1, 2, 9, 11}

También se puede acceder a estas operaciones mediante métodos de objetos, por ejemplo ``indA.intersection(indB)``.