# Introducción a los objetos Pandas

A un nivel muy básico, los objetos Pandas pueden considerarse como **versiones mejoradas de arrays estructurados NumPy en los que las filas y columnas se identifican con etiquetas en lugar de simples índices enteros.**
Como veremos a lo largo de este capítulo, Pandas proporciona una gran cantidad de herramientas útiles, métodos y funcionalidades sobre las estructuras de datos básicas, pero **casi todo lo que sigue requerirá una comprensión de lo que son estas estructuras**.
Por lo tanto, antes de seguir adelante, vamos a introducir estas tres estructuras de datos fundamentales de Pandas: ``Series``, ``DataFrame``, y ``Index``.

Comenzaremos nuestras sesiones de código con las importaciones estándar de NumPy y Pandas:

Es la libreria por excelencia para el análisis de datos.
Porque es fácil y fue la primera

In [None]:
#pip install pandas

In [None]:
import numpy as np
import pandas as pd

## The Pandas Series Object

Una ``Serie`` de Pandas es un array unidimensional de datos indexados.
Se puede crear a partir de una lista o array de la siguiente manera:

In [81]:
# Alturas de clase
data = pd.Series([1.5, 1.6, 1.75, 1.80])
print(data)

0    1.50
1    1.60
2    1.75
3    1.80
dtype: float64


Como vemos en la salida, la ``Series`` envuelve tanto una secuencia de valores como una secuencia de índices, a los que podemos acceder con los atributos ``values`` e ``index``.
Los ``valores`` son simplemente una matriz NumPy familiar:

In [82]:
print(data.values)

[1.5  1.6  1.75 1.8 ]


El ``índice`` es un objeto tipo array del tipo ``pd.Índice``, del que hablaremos con más detalle en un momento.

In [None]:
print(data.index)

Al igual que con una matriz NumPy, se puede acceder a los datos por el índice asociado mediante la conocida notación de corchetes de Python:

In [None]:
data[1]

Tengo que hacer copias como en listas y arrays porque si no apuntan al mismo espacio de memoria y si altero uno se altera el otro

In [83]:
otra_serie = data[1:4].copy()
print(otra_serie)

1    1.60
2    1.75
3    1.80
dtype: float64


### SLICING
Si puede me lo va a hacer por **posiciones** y nunca me incluye el ultimo elemento, **aunque los indices sean números el slicing me lo hace por posiciones**

Si me lo hace por indices me incluye el ultimo elemento

In [86]:
#Si accedo por corte me devuelve un corte de la serie con indice y valor
print(otra_serie[0:2])

#Si accedo por indice como en diccionario me devuelve el valor que tiene ese indice

print(otra_serie[2]) #Aqi me devuelve 1.75 no me devuelve el 1.80 que es el que está en la posicion dos

#Para acceder al elemento 2:

print(otra_serie[1:3]) #y aqui si me devuelve el elemento 1.80 y su indice que es el 3

1    1.60
2    1.75
dtype: float64
2    1.75
3    1.80
dtype: float64
1.75
2    1.75
3    1.80
dtype: float64


Aqui aunque ponga que el indice es del 1 al 3 a la hora de hacer el corte pongo desde 0 porque entro por posición no por indice así que el indice 1 ocupa la posición 0

In [None]:
otra_serie[0:2]

Como veremos, sin embargo, **la ``Serie`` de Pandas es mucho más general y flexible que el array unidimensional de NumPy** que emula.

### ``Series`` como matriz NumPy generalizada

Por lo que hemos visto hasta ahora, puede parecer que el objeto ``Series`` es básicamente intercambiable con un array unidimensional de NumPy.
**La diferencia esencial es la presencia del índice**: mientras que el array de Numpy tiene un índice entero *implícitamente definido* usado para acceder a los valores, las ``Series`` de Pandas tienen un índice ***explícitamente definido*** asociado a los valores.

Esta definición explícita del índice proporciona al objeto ``Series`` capacidades adicionales. Por ejemplo, el índice no necesita ser un entero, sino que puede consistir en valores de cualquier tipo deseado.
Por ejemplo, **si lo deseamos, podemos utilizar cadenas como índice:**

In [65]:
data = pd.Series([1.5, 1.6, 1.75, 1.80],
                 index=['Jane', 'Joe', 'Susan', 'Mike'])
data

Jane     1.50
Joe      1.60
Susan    1.75
Mike     1.80
dtype: float64

In [66]:
data.values

array([1.5 , 1.6 , 1.75, 1.8 ])

In [67]:
data.index

Index(['Jane', 'Joe', 'Susan', 'Mike'], dtype='object')

Y el acceso al artículo funciona como se esperaba:

In [68]:
data['Susan']

1.75

Incluso podemos utilizar índices no contiguos o no secuenciales:

In [69]:
data = pd.Series([1.5, 1.6, 1.75, 1.80],
                 index=[2, 5, 3, 7])
data

2    1.50
5    1.60
3    1.75
7    1.80
dtype: float64

In [71]:
#Una serie de pandas no es un diccinario pero tiene atributos de diccionario
print(data.get(11,"no esta"))
print(data.get(3,"no esta"))


no esta
1.75


In [70]:
data[5]

1.6

In [77]:
#Hago slicing y puedo sacar el index y el value del slicing
print(data[1:2].index)
print(data[1:2].values)


Index([5], dtype='int64')
[1.6]


### Series como diccionario especializado

De esta manera, puedes pensar en una ``Serie`` de Pandas como una especialización de un diccionario de Python.
Un diccionario es una estructura que asigna claves arbitrarias a un conjunto de valores arbitrarios, y una ``Serie`` es una estructura que asigna claves tipadas a un conjunto de valores tipados.
Esta tipificación es importante: al igual que el código compilado de tipo específico detrás de un array de NumPy hace que sea más eficiente que una lista de Python para ciertas operaciones, la información de tipo de una ``Series`` de Pandas hace que sea mucho más eficiente que los diccionarios de Python para ciertas operaciones.

La analogía ``Series``-como-diccionario puede hacerse aún más clara construyendo un objeto ``Series`` directamente desde un diccionario Python:

In [78]:
population_dict = {'California': 38332521,
                   'Texas': 26448193,
                   'New York': 19651127,
                   'Florida': 19552860,
                   'Illinois': 12882135}
# print(population_dict)
population = pd.Series(population_dict)
population

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

Por defecto, se creará una ``Serie`` donde el índice se extrae de las claves ordenadas.
A partir de aquí, se puede realizar el típico acceso a ítems estilo diccionario:

In [79]:
population['California']

38332521

Sin embargo, a diferencia de un diccionario, ``Series`` también admite operaciones de tipo matriz, como el troceado:

### IMPORTANTE 

Cuando *slicing* por **posiciones** el *último* **NO** me lo incluye

Cuando hago *slicing* por **índices** el *último* **SI** me lo incluye

POR ESO PARA QUE NO HAYA LIOS ES PREFERIBLE USAR INDICES NO NUMERICOS Y USAR STRING SI SE PUEDE

In [80]:
population['California':'Florida']

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
dtype: int64

Discutiremos algunas de las peculiaridades de Pandas en indexación y selección en [Data Indexing and Selection](2_Data-Indexing-and-Selection.ipynb).

### Construcción de objetos Serie

Ya hemos visto algunas formas de construir una ``Serie`` de Pandas desde cero; todas ellas son alguna versión de lo siguiente:

```python
pd.Series(datos, índice=índice)
```

donde ``index`` es un argumento opcional, y ``data`` puede ser una de muchas entidades.

Por ejemplo, ``data`` puede ser una lista o un array NumPy, en cuyo caso ``index`` por defecto es una secuencia entera:

In [87]:
pd.Series([2, 4, 6]) #me crea la serie con los indices por defecto de 0 a n...

0    2
1    4
2    6
dtype: int64

``data`` puede ser un escalar, que se repite para llenar el índice especificado:

In [89]:
pd.Series(5, index=[100, 200, 300])

#PUEDO REPETIR UN NUMERO UN N DETERMINADO DE VECES CON INDICES DIFERENTES
#PERO NO PUEDO PASARLE DISTINTOS VALORES DE INDICES Y DE VALORES
#SI PONGO 2 VALORES Y 3 INDICES, O AL REVES ME VA A DAR ERROR PORQUE NO HAY MATCH


100    5
200    5
300    5
dtype: int64

``data`` puede ser un diccionario, en el que ``index`` toma por defecto las claves ordenadas del diccionario:

In [90]:
pd.Series({2:'a', 1:'b', 3:'c'}) #toma como indices las llaves del diccionario

2    a
1    b
3    c
dtype: object

En cada caso, el índice puede fijarse explícitamente si se prefiere un resultado diferente:

### CASO PARTICULAR

Si tenemos como valores un diccionario como este, con 3 elementos,

y como indices 2 indices, me va a coger la serie con los elementos

que correspondan a los valores de los indices, en este caso el 3 y el 2

y el 1 no estaria en la serie

In [97]:
pd.Series({2:'a', 1:'b', 3:'c'}, index=[3, 2])

3    c
2    a
dtype: object

En caso de que se **repitiera el mismo valor de llave 2 veces** tomaria el
valor del **último** , se reemplaza como en diccionarios

In [98]:
pd.Series({2:'a', 3:'b', 3:'c'}, index=[3, 2])

3    c
2    a
dtype: object

Y en caso de que el **valor de algún indice no estuviera en las llaves del diccionario**

se mostraría valor **NaN** como valor de ese indice en la serie


In [99]:
pd.Series({2:'a', 1:'b', 1:'c'}, index=[3, 2])


3    NaN
2      a
dtype: object

Tenga en cuenta que, en este caso, ``Series`` sólo se rellena con las claves identificadas explícitamente.

## El objeto Pandas DataFrame

La siguiente estructura fundamental en Pandas es el ``DataFrame``.
Como el objeto ``Series`` discutido en la sección anterior, el ``DataFrame`` puede ser **pensado como una generalización de un array NumPy, o como una especialización de un diccionario Python.**
Ahora echaremos un vistazo a cada una de estas perspectivas.

### DataFrame como una matriz NumPy generalizada
Si una ``Serie`` es un análogo de un array unidimensional con índices flexibles, un **``DataFrame``  es un análogo de un array bidimensional con índices de fila flexibles y nombres de columna flexibles.**
Al igual que se puede pensar en una matriz bidimensional como una secuencia ordenada de columnas unidimensionales alineadas, se puede pensar en un ``DataFrame`` como una secuencia de objetos ``Series`` alineados.
Aquí, por "alineados" queremos decir que **comparten el mismo índice.**

Para demostrarlo, construyamos primero una nueva ``Serie`` que enumere el área de cada uno de los cinco estados comentados en la sección anterior:

In [100]:
area_dict = {'California': 423967, 'Texas': 695662, 'New York': 141297,
             'Florida': 170312, 'Illinois': 149995}
area = pd.Series(area_dict)
area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
dtype: int64

Ahora que tenemos esto junto con la serie ``population`` de antes, podemos utilizar un diccionario para construir un único objeto bidimensional que contenga esta información:

In [102]:
print(population)

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64


In [103]:
print(area)

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
dtype: int64


In [104]:
states = pd.DataFrame({'population': population,
                       'area': area})
states

Unnamed: 0,population,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


Si tuvieramos en cada una se las series los indices ordenados de formas
Distintas al hacer el dataFrame se ordenan de menor a mayor o en este
caso alfabeticamente, y antes las mayusculas y luego minusculas

Al igual que el objeto ``Series``, el ``DataFrame`` tiene un atributo ``index`` que da acceso a las etiquetas de índice:

In [105]:
states.index

Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object')

Además, el ``DataFrame`` tiene un atributo ``columns``, que es un objeto ``Index`` que contiene las etiquetas de las columnas:

In [106]:
states.columns

Index(['population', 'area'], dtype='object')

In [107]:
states.values

array([[38332521,   423967],
       [26448193,   695662],
       [19651127,   141297],
       [19552860,   170312],
       [12882135,   149995]])

Así, el ``DataFrame`` puede considerarse como una generalización de una matriz bidimensional NumPy, donde tanto las filas como las columnas tienen un índice generalizado para acceder a los datos.

### DataFrame como diccionario especializado

Del mismo modo, también podemos pensar en un ``DataFrame`` como una especialización de un diccionario.
Mientras que un diccionario asigna una clave a un valor, un ``DataFrame`` asigna un nombre de columna a una ``Serie`` de datos de columna.
Por ejemplo, pedir el atributo ``'area`` devuelve el objeto ``Series`` que contiene las áreas que hemos visto antes:

In [110]:
states['area']

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

**Fíjate en el posible punto de confusión: en un array NumPy bidimensional, ``data[0]`` devolverá la primera *fila*. Para un ``DataFrame``, ``data['col0']`` devolverá la primera *columna*.**
Debido a esto, probablemente sea mejor pensar en los ``DataFrame`` como diccionarios generalizados que como arrays generalizados, aunque ambas formas de ver la situación pueden ser útiles.
Exploraremos formas más flexibles de indexar ``DataFrame``s en [Data Indexing and Selection](2_Data-Indexing-and-Selection.ipynb).

### Construcción de objetos DataFrame

Un ``DataFrame`` de Pandas se puede construir de varias maneras.
Aquí daremos varios ejemplos.

#### A partir de un único objeto Serie

Un ``DataFrame`` es una colección de objetos ``Series``, y se puede construir un ``DataFrame`` de una sola columna a partir de una única ``Series``:

In [108]:
print(population)

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64


In [109]:
pd.DataFrame(data=population, columns=['population'])

Unnamed: 0,population
California,38332521
Texas,26448193
New York,19651127
Florida,19552860
Illinois,12882135


#### A partir de una lista de dicts

Cualquier lista de diccionarios puede convertirse en un ``DataFrame``.
Usaremos una simple comprensión de lista para crear algunos datos:

In [111]:
data = [{'a': i, 'b': 2 * i}
        for i in range(3)]
print(data)
pd.DataFrame(data)

[{'a': 0, 'b': 0}, {'a': 1, 'b': 2}, {'a': 2, 'b': 4}]


Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4


Incluso si faltan algunas claves en el diccionario, Pandas las rellenará con valores ``NaN`` (es decir, "no un número"):

In [112]:
pd.DataFrame([{'a': 1, 'b': 2}, {'b': 3, 'c': 4}])

Unnamed: 0,a,b,c
0,1.0,2,
1,,3,4.0


#### A partir de un diccionario de objetos Series

Como hemos visto antes, un ``DataFrame`` también puede construirse a partir de un diccionario de objetos ``Series``:

In [113]:
pd.DataFrame({'population': population,
              'area': area})

Unnamed: 0,population,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


#### A partir de una matriz NumPy bidimensional

Dado un array bidimensional de datos, podemos crear un ``DataFrame`` con cualquier nombre de columna e índice especificado.
Si se omite, se utilizará un índice entero para cada uno:

In [114]:
np.random.seed(10)
np.random.rand(3, 2)

array([[0.77132064, 0.02075195],
       [0.63364823, 0.74880388],
       [0.49850701, 0.22479665]])

In [119]:
np.random.seed(10)
x = pd.DataFrame(np.random.rand(3, 2),
             columns=['Columna_1', 'Columna_2'],
             index=['a', 'b', 'c'])

x

Unnamed: 0,Columna_1,Columna_2
a,0.771321,0.020752
b,0.633648,0.748804
c,0.498507,0.224797


In [116]:
x.reset_index() #Te renombra el indice y pasa a ser 0,1,2 y te hace 
#otra columna index con a,b,c para no perder esa informacion

Unnamed: 0,index,Columna_1,Columna_2
0,a,0.771321,0.020752
1,b,0.633648,0.748804
2,c,0.498507,0.224797


#### A partir de una matriz estructurada NumPy

Cubrimos los arrays estructurados en [Datos estructurados: Arrays estructurados de NumPy](02.09-Datos estructurados-NumPy.ipynb).
Un ``DataFrame`` de Pandas funciona de forma muy parecida a un array estructurado, y se puede crear directamente a partir de uno:

In [120]:
import numpy as np
A = np.zeros(3, dtype=[('A', 'i8'), ('B', 'f8'), ('C', 'f8')])
A

array([(0, 0., 0.), (0, 0., 0.), (0, 0., 0.)],
      dtype=[('A', '<i8'), ('B', '<f8'), ('C', '<f8')])

In [124]:
a=pd.DataFrame(A)
a

Unnamed: 0,A,B,C
0,0,0.0,0.0
1,0,0.0,0.0
2,0,0.0,0.0


In [125]:
a.info() #Tengo el metodo info que ma informacion del DataFrame

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   A       3 non-null      int64  
 1   B       3 non-null      float64
 2   C       3 non-null      float64
dtypes: float64(2), int64(1)
memory usage: 204.0 bytes


## El objeto índice de Pandas

Hemos visto aquí que tanto los objetos ``Series`` como ``DataFrame`` contienen un *índice* explícito que te permite referenciar y modificar datos.
Este objeto ``Index`` es una estructura interesante en sí misma, y **puede considerarse como un *array inmutable* o como un *conjunto ordenado* (técnicamente un multi-conjunto, ya que los objetos ``Index`` pueden contener valores repetidos)**.
Estos puntos de vista tienen algunas consecuencias interesantes en las operaciones disponibles sobre los objetos ``Index``.
Como ejemplo sencillo, construyamos un ``Index`` a partir de una lista de enteros:

In [126]:
ind = pd.Index([2, 3, 5, 7, 11])
ind

Index([2, 3, 5, 7, 11], dtype='int64')

### Índice como array inmutable

El ``Index`` en muchos aspectos funciona como un array.
Por ejemplo, podemos utilizar la notación de indexación estándar de Python para recuperar valores o rebanadas:

In [127]:
ind[1]

3

In [128]:
ind[::2]

Index([2, 5, 11], dtype='int64')

Los objetos ``Index`` también tienen muchos de los atributos familiares de las matrices NumPy:

In [129]:
print(ind.size, ind.shape, ind.ndim, ind.dtype)

5 (5,) 1 int64


Una diferencia entre los objetos ``Index`` y las matrices NumPy es que los índices son inmutables, es decir, no se pueden modificar por los medios normales:

In [130]:
ind[1] = 0

TypeError: Index does not support mutable operations

**Esta inmutabilidad hace que sea más seguro compartir índices entre múltiples ``DataFrame``s y matrices, sin el potencial de efectos secundarios de la modificación inadvertida del índice.**

### Índice como conjunto ordenado

Los objetos Pandas están diseñados para facilitar operaciones como uniones entre conjuntos de datos, que dependen de muchos aspectos de la aritmética de conjuntos.
**El objeto ``Index`` sigue muchas de las convenciones utilizadas por la estructura de datos ``set`` incorporada en Python, de modo que las uniones, intersecciones, diferencias y otras combinaciones se pueden calcular de una manera familiar:**.

In [135]:
indA = pd.Index([1, 3, 5, 7, 9])
indB = pd.Index([2, 3, 5, 7, 11])

In [136]:
indA & indB  # intersection #depende de la version sale mal

Index([0, 3, 5, 7, 9], dtype='int64')

In [137]:
indA.intersection(indB) #usamos el metodo mejor

Index([3, 5, 7], dtype='int64')

In [133]:
indA | indB  # union

Index([3, 3, 5, 7, 11], dtype='int64')

In [138]:
indA.union(indB)

Index([1, 2, 3, 5, 7, 9, 11], dtype='int64')

In [134]:
indA ^ indB  # symmetric difference

Index([3, 0, 0, 0, 2], dtype='int64')

In [140]:
indA.symmetric_difference(indB)

Index([1, 2, 9, 11], dtype='int64')

También se puede acceder a estas operaciones mediante métodos de objetos, por ejemplo ``indA.intersection(indB)``.