<p align="center">
  <img src="https://raw.githubusercontent.com/lacamposm/Diplomado_Metodos_UCentral/main/data/images/imagen_ucentral.jpg" alt="logo_Ucentral" width="400px" height="300px">
</p>

---
# Librería `pandas`
---

Será nuestra librería base para trabajar con los `dataframe`, es decir, una estructura de datos bidimensional, donde las columnas serán las variables o características y las filas serán los registro. Es una librería que trabaja a la par con muchas de las librerías de **Python**. Puede consultar más información en la página oficial de [`pandas.`](https://pandas.pydata.org/docs/index.html)

In [1]:
## Librerías requeridas
import numpy as np
import pandas as pd

---
## Series
---
Vamos a explorar la estructura de serie en `pandas`. Debemos al final estar
familiarizados en cómo almacenar y manipular datos indexados unidimensionales.

La serie es una de las estructuras de datos esenciales en `pandas`. Todos los elementos se almacenan en la serie y hay etiquetas con las que se puede recuperarlos. Una forma sencilla de pensar una serie en `pandas` son las columnas de datos. El primero es el índice especial, muy parecido a las llaves o keys de un diccionario. Mientras que el segundo son los datos reales. Es importante tener en cuenta que la columna de datos tiene una etiqueta propia y se puede recuperar.

In [2]:
estudiantes = ["Maria", "Juan", "Alejandra"]
pd.Series(estudiantes)

0        Maria
1         Juan
2    Alejandra
dtype: object

El resultado es una serie de `pandas`, los índices son dados automaticamente siguiendo en orden de los números naturales. Además `pandas` identificó el tipo de datos de esta serie como "object" y estandariza el tipo de dato buscando el que mejor corresponda.

In [3]:
estudiantes = {"Maria":"Química",
               "Juan": "Sociales",
               "Alejandra": "Matemáticas"}

In [None]:
## En el caso de tener un diccionario las claves o keys serán los índices y los valores la asignación a dicho índice
pd.Series(data=estudiantes)

In [17]:
## En el caso de tener un diccionario las claves o keys serán los índices y los valores la asignación a dicho índice
pd.Series(estudiantes)

Maria            Química
Juan            Sociales
Alejandra    Matemáticas
dtype: object

In [5]:
serie = pd.Series(estudiantes)

In [6]:
serie[0], serie[1], serie[2]

('Química', 'Sociales', 'Matemáticas')

In [7]:
serie.index

Index(['Maria', 'Juan', 'Alejandra'], dtype='object')

In [8]:
for i in serie.index:
  print(f'El índice {i} tiene el valor {serie[i]}')

El índice Maria tiene el valor Química
El índice Juan tiene el valor Sociales
El índice Alejandra tiene el valor Matemáticas


In [9]:
# El índice se genera automaticamente desde 0 hasta el número de entradas en la lista.
numeros = [1,2,3]
pd.Series(numeros)

0    1
1    2
2    3
dtype: int64

In [10]:
# En las series de pandas puede usted mismo asignar los valores a los índices.
pd.Series(numeros, index=["Uno","Dos","Tres"])

Uno     1
Dos     2
Tres    3
dtype: int64

In [14]:
# Desde un numpy array
pd.Series(np.array(range(1, 4)), index=["Uno","Dos","Tres"])

Uno     1
Dos     2
Tres    3
dtype: int64

In [15]:
serie_1 = pd.Series(
    data=["Química", "Matemáticas", "Química","Sociales"],
    index= ["Maria", "Juan", "Carlos","Alison"]
    )

serie_1

Maria         Química
Juan      Matemáticas
Carlos        Química
Alison       Sociales
dtype: object

In [18]:
serie_2 = pd.Series(["Química", "Matemáticas", "Química", None], index= ["Maria", "Juan", "Carlos","Alison"])
serie_2

Maria         Química
Juan      Matemáticas
Carlos        Química
Alison           None
dtype: object

In [19]:
serie_3 = pd.Series([1, 2, 3, None], index= ['Maria', 'Juan', 'Carlos', 'Alison'])
serie_3

Maria     1.0
Juan      2.0
Carlos    3.0
Alison    NaN
dtype: float64

In [22]:
notas_clase = {99: 'Matemáticas',
              100: 'Química',
              101: 'Inglés',
              102: 'Sociales'}
serie_4 = pd.Series(notas_clase)
#serie_4[0]

In [23]:
serie_4[99]

'Matemáticas'

In [24]:
serie_1

Maria         Química
Juan      Matemáticas
Carlos        Química
Alison       Sociales
dtype: object

In [25]:
serie_1.unique()

array(['Química', 'Matemáticas', 'Sociales'], dtype=object)

In [26]:
serie_1

Maria         Química
Juan      Matemáticas
Carlos        Química
Alison       Sociales
dtype: object

In [27]:
serie_2

Maria         Química
Juan      Matemáticas
Carlos        Química
Alison           None
dtype: object

In [28]:
serie_1.append(serie_2)

Maria         Química
Juan      Matemáticas
Carlos        Química
Alison       Sociales
Maria         Química
Juan      Matemáticas
Carlos        Química
Alison           None
dtype: object

In [29]:
serie_1.append(serie_2)['Carlos']

Carlos    Química
Carlos    Química
dtype: object

In [30]:
pegado = serie_1.append(serie_2)
pegado.unique()

array(['Química', 'Matemáticas', 'Sociales', None], dtype=object)

In [31]:
## Reemplazar un valor en un índice.
pegado['Maria'] = 'Artes'
pegado

Maria           Artes
Juan      Matemáticas
Carlos        Química
Alison       Sociales
Maria           Artes
Juan      Matemáticas
Carlos        Química
Alison           None
dtype: object

In [32]:
## Eliminar un índice
pegado.drop('Carlos')

Maria           Artes
Juan      Matemáticas
Alison       Sociales
Maria           Artes
Juan      Matemáticas
Alison           None
dtype: object

In [33]:
## Eliminar una lista de índices
pegado.drop(['Carlos', 'Juan'])

Maria        Artes
Alison    Sociales
Maria        Artes
Alison        None
dtype: object

In [34]:
pegado

Maria           Artes
Juan      Matemáticas
Carlos        Química
Alison       Sociales
Maria           Artes
Juan      Matemáticas
Carlos        Química
Alison           None
dtype: object

In [35]:
## Ingresar un nuevo registro.
pegado['Persona_sin_nombre'] = 'Culinaría'
pegado

Maria                       Artes
Juan                  Matemáticas
Carlos                    Química
Alison                   Sociales
Maria                       Artes
Juan                  Matemáticas
Carlos                    Química
Alison                       None
Persona_sin_nombre      Culinaría
dtype: object

In [36]:
## Eliminar los registros faltantes.
pegado.dropna()

Maria                       Artes
Juan                  Matemáticas
Carlos                    Química
Alison                   Sociales
Maria                       Artes
Juan                  Matemáticas
Carlos                    Química
Persona_sin_nombre      Culinaría
dtype: object

In [37]:
## Eliminar los registros duplicados (por default se queda con el primer registro encontrado.)
pegado.drop_duplicates()

Maria                       Artes
Juan                  Matemáticas
Carlos                    Química
Alison                   Sociales
Alison                       None
Persona_sin_nombre      Culinaría
dtype: object

In [38]:
## Serie booleana
pegado.isna()

Maria                 False
Juan                  False
Carlos                False
Alison                False
Maria                 False
Juan                  False
Carlos                False
Alison                 True
Persona_sin_nombre    False
dtype: bool

In [39]:
## Serie booleana
pegado.notna()

Maria                  True
Juan                   True
Carlos                 True
Alison                 True
Maria                  True
Juan                   True
Carlos                 True
Alison                False
Persona_sin_nombre     True
dtype: bool

---
## Dataframes.
---

DataFrame es el corazón de la biblioteca de `pandas`. La estructura de datos DataFrame es el objeto principal en el que se trabaja en el análisis de datos y tareas de limpieza.

El DataFrame es conceptualmente un objeto de serie bidimensional, donde hay un índice y múltiples columnas, cada columna con una etiqueta. De hecho, la distinción entre una columna y una fila es realmente sólo una
distinción conceptual. Un  DataFrame es una matriz etiquetada de dos ejes.


In [40]:
registro1 = pd.Series({'Nombre': 'Alicia',
                       'Asignatura': 'Física',
                       'Puntuación': 85})

registro2 = pd.Series({'Nombre': 'Andrés',
                       'Asignatura': 'Química',
                       'Puntuación': 82})

registro3 = pd.Series({'Nombre': 'Helen',
                       'Asignatura': 'Biología',
                       'Puntuación': 90})

In [41]:
registro1

Nombre        Alicia
Asignatura    Física
Puntuación        85
dtype: object

In [42]:
df = pd.DataFrame([registro1, registro2, registro3], index=['estudiante1', 'estudiante2', 'estudiante3'])
df

Unnamed: 0,Nombre,Asignatura,Puntuación
estudiante1,Alicia,Física,85
estudiante2,Andrés,Química,82
estudiante3,Helen,Biología,90


In [43]:
type(registro1)

pandas.core.series.Series

In [44]:
type(df)

pandas.core.frame.DataFrame

In [45]:
# Podemos formar un dataframe apartir de una lista con diccionarios, cada uno será un registro del dataframe.
estudiantes = [{'Nombre':'Alicia', 'Asignatura': 'Física', 'Puntuación': 85},
               {'Nombre':'Andrés', 'Asignatura': 'Química', 'Puntuación': 82},
               {'Nombre':'Helen', 'Asignatura': 'Biología', 'Puntuación': 90}]

pd.DataFrame(estudiantes, index=['estudiante1','estudiante2','estudiante3'])

Unnamed: 0,Nombre,Asignatura,Puntuación
estudiante1,Alicia,Física,85
estudiante2,Andrés,Química,82
estudiante3,Helen,Biología,90


In [46]:
pd.Series({'Nombre': 'Alicia', 'Asignatura': 'Física', 'Puntuación': 85})

Nombre        Alicia
Asignatura    Física
Puntuación        85
dtype: object

In [47]:
pd.DataFrame(estudiantes)

Unnamed: 0,Nombre,Asignatura,Puntuación
0,Alicia,Física,85
1,Andrés,Química,82
2,Helen,Biología,90


In [51]:
## Nueva columna
df['Nueva'] = 50
display(df)
df.append({'Nombre':'Luisa','Asignatura':'Artes','Puntuación':'100','Nueva':'45'}, ignore_index=True)

Unnamed: 0,Nombre,Asignatura,Puntuación,Nueva
estudiante1,Alicia,Física,85,50
estudiante2,Andrés,Química,82,50
estudiante3,Helen,Biología,90,50


Unnamed: 0,Nombre,Asignatura,Puntuación,Nueva
0,Alicia,Física,85,50
1,Andrés,Química,82,50
2,Helen,Biología,90,50
3,Luisa,Artes,100,45


In [52]:
df.append(df)

Unnamed: 0,Nombre,Asignatura,Puntuación,Nueva
estudiante1,Alicia,Física,85,50
estudiante2,Andrés,Química,82,50
estudiante3,Helen,Biología,90,50
estudiante1,Alicia,Física,85,50
estudiante2,Andrés,Química,82,50
estudiante3,Helen,Biología,90,50


In [54]:
df.shape, df.shape[0], df.shape[1]

((3, 4), 3, 4)

---
## Conclusiones:
---

Revisamos como importar la librería `pandas`. Se conocieron los objetos de datos: `serie` y `dataframe`. Para cada uno de ellos se mostró la forma de construirlos y algunas consultas básica.