# **Obtención y preparación de datos**

# OD08. Creación de Estructuras en Pandas

In [29]:
import pandas as pd

Hay dos constructores principales para la creación de series y dataframes: `pd.Series` y `pd.DataFrames`, respectivamente. Estos constructores permiten crear estas estructuras a partir e diferentes tipos de variables: diccionarios, listas, etc. También permiten personalizar las etiquetas de los índices, y filtrar y reordenar las etiquetas de columnas.

## <font color='blue'>**Creación de series**</font>

El constructor para la creación de una serie pandas es `pandas.Series`. Este constructor acepta tres parámetros principales:

* `data`: estructura de datos tipo array, iterable, diccionario o valor escalar que contendrá los valores a introducir en la serie.

* `index`: estructura tipo array con la misma longitud que los datos. Si este argumento no se añade al crear la serie, se agregará un índice por defecto formado por números enteros desde 0 hasta $n-1$, siendo $n$ el número de datos.

* `dtype`: tipo de datos para la serie. Si no se especifica, se inferirá a partir de los datos.

Los valores del índice, no tienen que ser necesariamente distintos aunque ciertas operaciones pueden generar un error si no soportan la posibilidad de tener índices duplicados.

### Creación de una serie a partir de una lista o de un array NumPy

In [20]:
s = pd.Series([7, 5, 3])
s

0    7
1    5
2    3
dtype: int64

Al no haberse especificado un índice, se asigna uno automáticamente con los valores 0, 1 y 2.

In [5]:
list(s.index)

[0, 1, 2]

Si repetimos esta instrucción especificando un índice:

In [10]:
s = pd.Series([7, 5, 3], index = ["Ene", "Feb", "Mar"])
s

Ene    7
Feb    5
Mar    3
dtype: int64

Vemos cómo el índice por defecto ha sido sustituido por el indicado. En este caso, la longitud del índice deberá coindicir con el número de elementos de la lista.

Los mismos comentarios podrían hacerse si, en lugar de una lista, hubiésemos partido de un array NumPy para crear la serie.

### Creación de una serie a partir de un diccionario

Si partimos de un diccionario para crear la serie:


In [23]:
d = {"Ene":7, "Feb":5, "Mar":3}
s = pd.Series(d)
s

Ene    7
Feb    5
Mar    3
dtype: int64

El constructor utiliza las claves como etiquetas del índice, y los valores del diccionario como valores de la serie.

Si incluimos el índice explícitamente en el constructor, los valores en la serie se tomarán en el orden en el que estén en el índice explícito. Además, si en éste hay valores que no pertenecen al conjunto de claves del diccionario, se añaden a la serie con un valor *NaN*:

In [13]:
d = {"Ene":7, "Feb":5, "Mar":3}
s = pd.Series(d, index = ["Abr", "Mar", "Feb", "Ene"])
s

Abr    NaN
Mar    3.0
Feb    5.0
Ene    7.0
dtype: float64

En este ejemplo, hemos creado la serie especificando el índice que hemos formado dando la vuelta a las claves del diccionario ("Mar", "Feb" y "Ene") y hemos añadido a la lista de etiquetas el valor "Abr", que no pertenece al conjunto de claves del diccionario. Se ha añadido a la serie, pero se le ha asignado el valor *NaN*. Es precisamente la presencia de este valor lo que modifica el tipo de la serie a float.

### Creación de una serie a partir de un escalar

Si los datos se reducen a un escalar (no a una lista con un único elemento, sino a un sencillo escalar como 7 o 15.4) será necesario añadir el índice explícitamente. El número de elementos de la serie coincidirá con el número de elementos del índice, y el escalar será asignado como valor a todos ellos.

In [17]:
s = pd.Series(7, index = ["Ene", "Feb", "Mar"])
s

Ene    7
Feb    7
Mar    7
dtype: int64

## <font color='green'>Actividad 1</font>

Escribir un programa que pregunte al usuario por las ventas de un rango de años y muestre por pantalla una serie con los datos de las ventas indexada por los años, antes y después de aplicarles un descuento del 10%.

In [26]:
# Tu código aquí ...
ano1 = input("ingrese año 1")
ventas1= input("ingrese $ año1")
ano2 = input("ingrese año 2")
ventas2= input("ingrese $ año2")
ano3 = input("ingrese año 3")
ventas3= input("ingrese $ año3")
d = {"ano1" :ventas1, "ano2":ventas2, "ano3":ventas3}
s = pd.Series(d, index = [ ano1, ano2, ano3])
print(s)
## falta aplicar aun el descuento y todo lo demas


2021     5000
2022    10000
2023     5045
dtype: object


<font color='green'>Fin Actividad 1</font>

## <font color='blue'>**Creación de dataframes**</font>

El constructor de dataframes es `pandas.DataFrame`. Acepta cuatro parámetros principales:

* `data`: estructura de datos ndarray (array NumPy), diccionario u otro dataframe.

* `index`: índice a aplicar a las filas. Si no se especifica, se asignará uno por defecto formado por números enteros entre 0 y $n-1$, siendo $n$ el número de filas del dataframe.

* `columns`: etiquetas a aplicar a las columnas. Al igual que ocurre con el índice de filas, si no se añade se asignará uno automático formado por números enteros entre 0 y $m-1$, siendo $m$ el número de columnas.

* `dtype`: tipo a aplicar a los datos. Solo se permite uno. Si no se especifica, se infiere el tipo de cada columna a partir de los datos que contengan.

Los valores de los índices de filas y columnas no tienen por qué ser necesariamente distintos.

### Creación de un dataframe a partir de un diccionario de listas

En este escenario partimos del siguiente diccionario de listas de valores:

In [30]:
elementos = {
    "Número atómico":[1, 6, 47, 88],
    "Masa atómica":[1.008, 12.011, 107.87, 226],
    "Familia":["No metal", "No metal", "Metal", "Metal"]
}
elementos

{'Número atómico': [1, 6, 47, 88],
 'Masa atómica': [1.008, 12.011, 107.87, 226],
 'Familia': ['No metal', 'No metal', 'Metal', 'Metal']}

Y creamos el dataframe con él como primer argumento:

In [31]:
tabla_periodica = pd.DataFrame(elementos)
tabla_periodica

Unnamed: 0,Número atómico,Masa atómica,Familia
0,1,1.008,No metal
1,6,12.011,No metal
2,47,107.87,Metal
3,88,226.0,Metal


El dataframe se ha creado situando las claves del diccionario como etiquetas de columnas y las listas asociadas a cada clave como columnas del dataframe. Al no haber especificado un índice de filas, éste ha tomado valores por defecto (0, 1, 2 y 3).

A continuación repetimos la misma operación especificando las etiquetas tanto para filas como para columnas, utilizando los parámetros `index` y `columns` espectivamente:

In [32]:
tabla_periodica = pd.DataFrame(elementos,
                               index = ["H", "C", "Ag", "Ra"],
                               columns = ["Familia", "Número atómico", "Masa atómica"]
                               )
tabla_periodica

Unnamed: 0,Familia,Número atómico,Masa atómica
H,No metal,1,1.008
C,No metal,6,12.011
Ag,Metal,47,107.87
Ra,Metal,88,226.0


Con el parámetro `columns` podemos especificar el orden en el que se mostrarán las columnas o incluso filtrar éstas (no incluyendo todas las etiquetas presentes en el diccionario como claves), pero no cambiar sus nombres. De hecho, si alguna de las etiquetas incluidas en dicho argumento no apareciese en el conjunto de claves del diccionario, se crearía una columna con dicho nombre pero con todos sus valores fijados a *NaN*.

Si, en lugar de listas de datos como valores del diccionario, hubiesen sido `arrays` NumPy o series, el procedimiento habría sido exactamente el mismo.

### Creación de un dataframe a partir de un array NumPy

En el caso de partir de un array NumPy, si no se especifican las etiquetas de filas y columnas, se asignan las etiquetas por defecto:

In [34]:
import numpy as np
unidades_datos = np.array([[2, 5, 3, 2], 
                           [4, 6, 7, 2],
                           [3, 2, 4, 1]])
unidades_datos

array([[2, 5, 3, 2],
       [4, 6, 7, 2],
       [3, 2, 4, 1]])

In [35]:
unidades = pd.DataFrame(unidades_datos)
unidades

Unnamed: 0,0,1,2,3
0,2,5,3,2
1,4,6,7,2
2,3,2,4,1


Las filas del array NumPy siguen siendo interpretadas como filas del dataframe.

Si especificamos las etiquetas de filas y columnas, el resultado es diferente:

In [36]:
unidades = pd.DataFrame(unidades_datos,
                        index = [2015, 2016, 2017],
                        columns = ["Ag", "Au", "Cu", "Pt"])
unidades

Unnamed: 0,Ag,Au,Cu,Pt
2015,2,5,3,2
2016,4,6,7,2
2017,3,2,4,1


### Creación de un dataframe a partir de una lista de diccionarios

También podemos partir de un conjunto de diccionarios, cada uno definiendo el contenido de lo que será una fila del dataframe:

In [37]:
unidades_2015 = {"Ag":2, "Au":5, "Cu":3, "Pt":2}
unidades_2016 = {"Ag":4, "Au":6, "Cu":7, "Pt":2}
unidades_2017 = {"Ag":3, "Au":2, "Cu":4, "Pt":1}
unidades = pd.DataFrame([unidades_2015, unidades_2016, unidades_2017],
                        index = [2015, 2016, 2017])
unidades

Unnamed: 0,Ag,Au,Cu,Pt
2015,2,5,3,2
2016,4,6,7,2
2017,3,2,4,1


Los diccionarios deberán compartir el mismo conjunto de claves que se interpretarán como etiquetas de columnas. Si las etiquetas no coinciden, se crearán todas las columnas pero se asignarán *NaN* a los valores desconocidos:

In [38]:
unidades_2015 = {"Ag":2, "Au":5, "Cu":3, "Pt":2}
unidades_2016 = {"Ag":4, "Au":6, "Cu":7, "Pt":2}
unidades_2017 = {"Ag":3, "Pb":2, "Cu":4, "Pt":1}
unidades = pd.DataFrame([unidades_2015, unidades_2016, unidades_2017],
                        index = [2015, 2016, 2017])
unidades

Unnamed: 0,Ag,Au,Cu,Pt,Pb
2015,2,5.0,3,2,
2016,4,6.0,7,2,
2017,3,,4,1,2.0


En este ejemplo, el año 2017 tiene una clave, *Pb*, que no existe en los otros dos diccionarios. Y este mismo año carece de la clave Au que sí se encuentra en los otros dos. Vemos cómo los datos no coincidentes se han rellenado con *NaN*.

### Otros métodos

Además de poder partir de otras estructura además de las vistas (de un diccionario de tuplas, por ejemplo), hay dos constructores adicionales:
* `pandas.DataFrame.from_dict`, que crea un dataframe a partir de un diccionario de diccionarios o de secuencias tipo array, y 
*`pandas.DataFrame.from_records`, que parte de una lista de tuplas o de arrays NumPy con un tipo estructurado.

## <font color='green'>Actividad 2</font>

Escribir programa que genere y muestre por pantalla un DataFrame con los datos de la tabla siguiente:

| Mes     | Ventas | Gastos |
| ------- | -----: | -----: |
| Enero   |  30500 |  22000 |
| Febrero |  35600 |  23400 |
| Marzo   |  28300 |  18100 |
| Abril   |  33900 |  20700 |
| Mayo    |  31450 |  25620 |
| Junio   |  33040 |  25500 |

In [44]:
# Tu código aquí...
enero = {"ventas":30500, "gastos":22000}
febrero = {"ventas":35600, "gastos":23400}
marzo = {"ventas":28300, "gastos":18100}
abril = {"ventas":33900, "gastos":20700}
mayo = {"ventas":31450, "gastos":25620}
junio = {"ventas":33040, "gastos":25500}
unidades = pd.DataFrame([enero, febrero, marzo, abril, mayo, junio],
                        index = ["enero", "febrero", "marzo", "abril", "mayo", "junio"])
unidades.columns.name="mes"
unidades

mes,ventas,gastos
enero,30500,22000
febrero,35600,23400
marzo,28300,18100
abril,33900,20700
mayo,31450,25620
junio,33040,25500


<font color='green'>Fin Actividad 2</font>