# PANDAS
Se importa con *import pandas as pd*

* Pandas trabaja con diccionarios o listas, es conocido como el Excel de Python, esta dirijido al tratamiento de datos en tablas.
* Los principales elementos son :
    * ***Data Frame*** se declara con *pd.DataFrame*
    * ***Series*** se declara con *pd.Series*

In [2]:
import pandas as pd
mi_dic={
    "nombre":["María","Julián","Ana"],
    "edad" : [28,30,25],
    "dni" : [42464548,40687879,48990075]
}
dic=pd.DataFrame(mi_dic)
dic

Unnamed: 0,nombre,edad,dni
0,María,28,42464548
1,Julián,30,40687879
2,Ana,25,48990075


In [3]:
dic["nombre"]

0     María
1    Julián
2       Ana
Name: nombre, dtype: object

Las series es considerada como una columna y son indexables

In [4]:
serie=pd.Series(["Argentina","Uruguay","Perú","Chile","Bolivia","Ecuador","Venezuela"])
print(serie)
print(serie[2:5])

0    Argentina
1      Uruguay
2         Perú
3        Chile
4      Bolivia
5      Ecuador
6    Venezuela
dtype: object
2       Perú
3      Chile
4    Bolivia
dtype: object


Se pueden asignar índices a cada elemento y llamarlo por ese índice o etiqueta, debe tener tantas etiquetas como elementos decladados.

In [5]:
serie1=pd.Series(["Argentina","Uruguay","Perú","Chile","Bolivia","Ecuador","Venezuela"], index=["A","Ur","P","C","B","E","V"])
print(serie1)
print(serie1["Ur"])

A     Argentina
Ur      Uruguay
P          Perú
C         Chile
B       Bolivia
E       Ecuador
V     Venezuela
dtype: object
Uruguay


Pueden definirse las series con un diccionario, y tomar la clabe como el indice y el valor como tal.

In [6]:
serie1[["P","B"]] * 2

P          PerúPerú
B    BoliviaBolivia
dtype: object

In [7]:
serie1[2:5]

P       Perú
C      Chile
B    Bolivia
dtype: object

### Seties a partir de Diccionarios
* Las series pueden declararse a partir de diccionarios donde la clave es el índice que toma el valor correspondiente.

In [8]:
dic0={"A": 'Argentina',"U": 'Uruguar',"P": 'Perú',"C":"Chile","B": "Bolivia","E": "Ecuador","V": "Venezuela"}
serie2=pd.Series(dic0)
print(serie2)

A    Argentina
U      Uruguar
P         Perú
C        Chile
B      Bolivia
E      Ecuador
V    Venezuela
dtype: object


## Filtrar, operación lógica
* Para filtrar las filas según un criterio se coloca el criterio entre corchetes:

In [9]:
serie2[serie2 > "D"]

U      Uruguar
P         Perú
E      Ecuador
V    Venezuela
dtype: object

## Ordenar
* Una serie puede ordenarse por valores con .sort_values()

In [11]:
serie2.sort_values()

A    Argentina
B      Bolivia
C        Chile
E      Ecuador
P         Perú
U      Uruguar
V    Venezuela
dtype: object

* Para ordenar por los índices se utiliza .sort_index()
* También se puede ordenar descendentemente con el atributo ascending=False dentro del paréntesis

In [10]:
serie2.sort_index(ascending=False)

V    Venezuela
U      Uruguar
P         Perú
E      Ecuador
C        Chile
B      Bolivia
A    Argentina
dtype: object

# Funciones de las series:
* Size: cantidad de registros
* Index: Nombre de los índices

In [11]:
print(serie2.size)
print(serie2.index)

7
Index(['A', 'U', 'P', 'C', 'B', 'E', 'V'], dtype='object')


## Generar series con datos escalares
* Se puede generar una serie con datos fijos para reservar espacios

In [12]:
dato = 0
serieE = pd.Series(dato, index=[0,1,88,89,90])
serieE

0     0
1     0
88    0
89    0
90    0
dtype: int64

## Armar Series
* Con valores e índices separados es posible indexar lista de datos con otra lista al momento de definirla con Pandas

In [13]:
pbl = [51.87,46.23,19.6,34.05,12.22,215.3]
paises = ["Colombia","Argentina","Chile","Perú","Bolivia","Brasil"]
serieP=pd.Series(index=paises,data=pbl)
serieP

Colombia      51.87
Argentina     46.23
Chile         19.60
Perú          34.05
Bolivia       12.22
Brasil       215.30
dtype: float64

In [47]:
serieP.sort_values(ascending=False)

Brasil       215.30
Colombia      51.87
Argentina     46.23
Perú          34.05
Chile         19.60
Bolivia       12.22
dtype: float64

# Generar DataFrames
Los data frames pueden generarse desde:
* Diccionario
* Lista
* Desde NumPy

In [14]:
# Diccionario
dic=pd.DataFrame({
    "nombre":["María","Julián","Ana"],
    "edad" : [28,30,25],
    "dni" : [42464548,40687879,48990075]
})
dic

Unnamed: 0,nombre,edad,dni
0,María,28,42464548
1,Julián,30,40687879
2,Ana,25,48990075


In [15]:
# Lista
lista = pd.DataFrame([["María",28,42464548],["Julián",30,40687879],["Ana",25,48990075]], columns=["Nombre","Edad","DNI"])
lista

Unnamed: 0,Nombre,Edad,DNI
0,María,28,42464548
1,Julián,30,40687879
2,Ana,25,48990075


In [16]:
# Desde Numpy
import numpy as np
npy = pd.DataFrame(np.random.randint(5,11,(3,3)), columns=["Ene","Feb","Mar"])
npy

Unnamed: 0,Ene,Feb,Mar
0,5,6,8
1,7,10,7
2,5,8,8


### Agregar Columnas

* *dataframe*[" *columna* "] = pd.Serie()

Se agrega una columna con el nombre entre corchetes de una sierie de panda.

In [48]:
lista["Random"] = pd.Series(np.random.randint(300,400,2), index=(0,2))
lista

Unnamed: 0,Nombre,Edad,DNI,Random
0,María,28,42464548,312.0
1,Julián,30,40687879,
2,Ana,25,48990075,335.0


* .concat()

Para concatenar DF1 y DF2 Se utiliza concat((DF1,DF2)) por defecto agrega filas (axis=0) y agrega columnas que no estén incluidas en los dos data frames, para agergar a las mismas filas se utiliza axis=1

In [51]:
nlista1=pd.concat((lista,npy),axis=1)
nlista1

Unnamed: 0,Nombre,Edad,DNI,Random,Ene,Feb,Mar
0,María,28,42464548,312.0,5,6,8
1,Julián,30,40687879,,7,10,7
2,Ana,25,48990075,335.0,5,8,8


Eliminar columna *col* del dataframe *df* df.pop('col')

In [52]:
nlista1.pop('Feb')
nlista1

Unnamed: 0,Nombre,Edad,DNI,Random,Ene,Mar
0,María,28,42464548,312.0,5,8
1,Julián,30,40687879,,7,7
2,Ana,25,48990075,335.0,5,8


Agregar filas con al data frame *df* en el índice *n* los datos a, b y c con df.loc[n]=["a","b","c"]<br>
Si el índice *n* existe, será sobreescrito, y si falta algún dato para alguna columna, dará error

In [53]:
nlista1.loc[2] = ["julio",15,50444555,500,8,3]
nlista1

Unnamed: 0,Nombre,Edad,DNI,Random,Ene,Mar
0,María,28,42464548,312.0,5,8
1,Julián,30,40687879,,7,7
2,julio,15,50444555,500.0,8,3


In [54]:
nlista1.loc[3] = ["Ramiro",15,4564654,500,8,3]
nlista1

Unnamed: 0,Nombre,Edad,DNI,Random,Ene,Mar
0,María,28,42464548,312.0,5,8
1,Julián,30,40687879,,7,7
2,julio,15,50444555,500.0,8,3
3,Ramiro,15,4564654,500.0,8,3


A travez de pd.Series se pueden agregar, pero se debe aclarar a que columna va cada dato.

In [55]:
rr=np.random.randint(500,600)
nlista1.loc[4] = pd.Series(["Ramiro2",65,1444555,rr,8,3], index=["Nombre","Edad","Random","DNI","Ene","Mar"])
nlista1

Unnamed: 0,Nombre,Edad,DNI,Random,Ene,Mar
0,María,28,42464548,312.0,5,8
1,Julián,30,40687879,,7,7
2,julio,15,50444555,500.0,8,3
3,Ramiro,15,4564654,500.0,8,3
4,Ramiro2,65,599,1444555.0,8,3


Agregar filas del data frame DF2 al dataframe DF1, por defecto axis=0, al colocar ignore_index, agrega índices correlativos con *.concat((DF1, DF2),ignore_index=True)*

In [57]:
#generamos un nuevo array n_df y valores random para las ultimas 3 columnas
Rand=list(np.random.randint(400,500,2))
Ene=list(np.random.randint(5,10,2))
Mar=list(np.random.randint(1,5,2))
n_df=pd.DataFrame({
    "Nombre":["Juan","Laura"],
    "Edad":[35,36],
    "DNI":[55974558,56122245],
    "Random":Rand,
    "Ene":Ene,
    "Mar":Mar
})
DF_Col=pd.concat((nlista1,n_df),ignore_index=True)
DF_Col

Unnamed: 0,Nombre,Edad,DNI,Random,Ene,Mar
0,María,28,42464548,312.0,5,8
1,Julián,30,40687879,,7,7
2,julio,15,50444555,500.0,8,3
3,Ramiro,15,4564654,500.0,8,3
4,Ramiro2,65,599,1444555.0,8,3
5,Juan,35,55974558,404.0,5,1
6,Laura,36,56122245,483.0,5,3


In [23]:
DF_Fil=pd.concat((nlista1,n_df),axis=1)
DF_Fil

Unnamed: 0,Nombre,Edad,DNI,Random,Ene,Mar,Nombre.1,Edad.1,DNI.1,Random.1,Ene.1,Mar.1
0,María,28,42464548,371.0,5,8,Juan,35.0,55974558.0,445.0,7.0,2.0
1,Julián,30,40687879,375.0,7,7,Laura,36.0,56122245.0,490.0,6.0,3.0
2,Ana,25,48990075,,5,8,,,,,,
3,julio,15,50444555,500.0,8,3,,,,,,
4,Ramiro,15,516,50444555.0,8,3,,,,,,


Se eliminan filas *m* y *n* con .drop([m,n])

In [58]:
DF_Col.drop([2,4])

Unnamed: 0,Nombre,Edad,DNI,Random,Ene,Mar
0,María,28,42464548,312.0,5,8
1,Julián,30,40687879,,7,7
3,Ramiro,15,4564654,500.0,8,3
5,Juan,35,55974558,404.0,5,1
6,Laura,36,56122245,483.0,5,3


# MERGE

* Merge hace referencia a la combinación de *Data Frames*
* Se consideran datos **repetidos** o **información en común**

In [25]:
df1=pd.DataFrame(
    {
        "Nombre":["Analía","Ramiro","Julieta","Raul"],
        "Edad":[10,20,23,22],
        "Nacionalidad":["Uruguay","Brasil","Argentina","Chile"]
    }
)
df2=pd.DataFrame(
    {
        "Nombre":["Analía","Ramiro","Julieta","Raul"],
        "Altura":[1.40,1.76,1.70,1.90],
        "Oficio":["Estudiante","Tecnico","Recepcionista","Transportista"]
    }
)
print(df1)
print(df2)

    Nombre  Edad Nacionalidad
0   Analía    10      Uruguay
1   Ramiro    20       Brasil
2  Julieta    23    Argentina
3     Raul    22        Chile
    Nombre  Altura         Oficio
0   Analía    1.40     Estudiante
1   Ramiro    1.76        Tecnico
2  Julieta    1.70  Recepcionista
3     Raul    1.90  Transportista


* Se debe colocar que columna se toma como referencia

In [26]:
df=pd.merge(df1,df2,on="Nombre")
df

Unnamed: 0,Nombre,Edad,Nacionalidad,Altura,Oficio
0,Analía,10,Uruguay,1.4,Estudiante
1,Ramiro,20,Brasil,1.76,Tecnico
2,Julieta,23,Argentina,1.7,Recepcionista
3,Raul,22,Chile,1.9,Transportista


* Si cambiamos df2 con otro nombre y combinamos por nombre, elimina los datos de los dataframe que no se encuentran en comun según el criterio de combinación, en este caso *"Nobmre"*

In [59]:
df2=pd.DataFrame(
    {
        "Nombre":["Analía","Ramiro","Julieta","Roque"],
        "Altura":[1.40,1.76,1.70,1.90],
        "Oficio":["Estudiante","Tecnico","Recepcionista","Transportista"],
        "Peso":[20,25,30,35]
    }
)
df=pd.merge(df1,df2,on="Nombre")
df

Unnamed: 0,Nombre,Edad,Nacionalidad,Altura,Oficio,Peso
0,Analía,10,Uruguay,1.4,Estudiante,20
1,Ramiro,20,Brasil,1.76,Tecnico,25
2,Julieta,23,Argentina,1.7,Recepcionista,30


#### Modificadores de Merge
how:
* inner : Por defecto toma como referencia las filas, y agrega las columnas que faltan manteniendo las filas con índices que aparecen en los dos dataframes
* outer : Toma como referencia las colunas de los dos Dataframes y agrega las filas y columnas que no están en en los dos dataframes.
* left: Conserva el primer data frame y agrega los datos que coinciden del segundo
* right: Agrega los datos que coinciden del primero y conserva todo el segundo dataframe

In [60]:
inn=pd.merge(df1,df2,on="Nombre",how="inner")
print(inn)

    Nombre  Edad Nacionalidad  Altura         Oficio  Peso
0   Analía    10      Uruguay    1.40     Estudiante    20
1   Ramiro    20       Brasil    1.76        Tecnico    25
2  Julieta    23    Argentina    1.70  Recepcionista    30


In [29]:
out=pd.merge(df1,df2,on="Nombre",how="outer")
print(out)

    Nombre  Edad Nacionalidad  Altura         Oficio  Peso
0   Analía  10.0      Uruguay    1.40     Estudiante  20.0
1   Ramiro  20.0       Brasil    1.76        Tecnico  25.0
2  Julieta  23.0    Argentina    1.70  Recepcionista  30.0
3     Raul  22.0        Chile     NaN            NaN   NaN
4    Roque   NaN          NaN    1.90  Transportista  35.0


In [30]:
lf=pd.merge(df1,df2,on="Nombre",how="left")
print(lf)

    Nombre  Edad Nacionalidad  Altura         Oficio  Peso
0   Analía    10      Uruguay    1.40     Estudiante  20.0
1   Ramiro    20       Brasil    1.76        Tecnico  25.0
2  Julieta    23    Argentina    1.70  Recepcionista  30.0
3     Raul    22        Chile     NaN            NaN   NaN


In [31]:
rt=pd.merge(df1,df2,on="Nombre",how="right")
print(rt)

    Nombre  Edad Nacionalidad  Altura         Oficio  Peso
0   Analía  10.0      Uruguay    1.40     Estudiante    20
1   Ramiro  20.0       Brasil    1.76        Tecnico    25
2  Julieta  23.0    Argentina    1.70  Recepcionista    30
3    Roque   NaN          NaN    1.90  Transportista    35


# JOIN

Combina contenidos de tablas pero haciendo referencia y buscando un valor en otra tabla.

In [32]:
prod=pd.DataFrame(
    {
        "id_prod":[1,2,3,4,5],
        "nombre":["Cable","Conec-Rj11","Conec-Rj45","SFP","Fuente"],
        "precio":[5,3,7,25,20]
    }
)
ventas=pd.DataFrame(
    {
        "id_vta":[1,2,3],
        "dia":["11/02/2024","13/02/2004","16/02/2004"],
        "factura":[1001,1002,1003]
    }
)
item_f=pd.DataFrame(
    {
        "id_f":[1,2,3,4,5,6,7,8,9],
        "id_pr":[4,1,2,3,4,2,3,1,2],
        "id_venta":[1,2,1,3,2,3,1,2,3],
        "q":[10,8,100,43,54,23,14,100,100]
    }
)

In [33]:
prod

Unnamed: 0,id_prod,nombre,precio
0,1,Cable,5
1,2,Conec-Rj11,3
2,3,Conec-Rj45,7
3,4,SFP,25
4,5,Fuente,20


In [34]:
ventas

Unnamed: 0,id_vta,dia,factura
0,1,11/02/2024,1001
1,2,13/02/2004,1002
2,3,16/02/2004,1003


In [35]:
item_f

Unnamed: 0,id_f,id_pr,id_venta,q
0,1,4,1,10
1,2,1,2,8
2,3,2,1,100
3,4,3,3,43
4,5,4,2,54
5,6,2,3,23
6,7,3,1,14
7,8,1,2,100
8,9,2,3,100


Join combina el DF de base con el DF entre paréntesis, por defecto toma los ids asignados automaticamente, no declarados en las columnas

In [36]:
item_f.join(ventas)

Unnamed: 0,id_f,id_pr,id_venta,q,id_vta,dia,factura
0,1,4,1,10,1.0,11/02/2024,1001.0
1,2,1,2,8,2.0,13/02/2004,1002.0
2,3,2,1,100,3.0,16/02/2004,1003.0
3,4,3,3,43,,,
4,5,4,2,54,,,
5,6,2,3,23,,,
6,7,3,1,14,,,
7,8,1,2,100,,,
8,9,2,3,100,,,


Para utilizar los id declarados en las columnas se utiliza *.set_index('columna')*

In [37]:
item_f.set_index('id_f').join(prod.set_index('id_prod'))

Unnamed: 0_level_0,id_pr,id_venta,q,nombre,precio
id_f,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,4,1,10,Cable,5.0
2,1,2,8,Conec-Rj11,3.0
3,2,1,100,Conec-Rj45,7.0
4,3,3,43,SFP,25.0
5,4,2,54,Fuente,20.0
6,2,3,23,,
7,3,1,14,,
8,1,2,100,,
9,2,3,100,,


De esta forma combina uno a uno los registros, al igual que merge se pueden dejar solo los registros en comun declarando *how='inner'*

In [38]:
item_f.set_index('id_f').join(prod.set_index('id_prod'),how="inner")

Unnamed: 0,id_pr,id_venta,q,nombre,precio
1,4,1,10,Cable,5
2,1,2,8,Conec-Rj11,3
3,2,1,100,Conec-Rj45,7
4,3,3,43,SFP,25
5,4,2,54,Fuente,20


Para lograr obtener los resultados que quedaron sin incluir con *how('inner')* se debe almacenar en una variable y filtrar la columna con ***NaN*** con la funcion *.isna()*

In [39]:
listaNA=item_f.set_index('id_f').join(prod.set_index('id_prod'))
listaNA[listaNA['precio'].isna()]

Unnamed: 0_level_0,id_pr,id_venta,q,nombre,precio
id_f,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
6,2,3,23,,
7,3,1,14,,
8,1,2,100,,
9,2,3,100,,


Se obtiene el listado completo de la lista con todos los registros sin declarar el indice del primer DF, y dentro de los paréntesis de la función *.join()* colocar *on='clave_foranea'*

In [40]:
# 2 Joins simultaneos.
df_total=item_f.join(prod.set_index('id_prod'), on='id_pr').join(ventas.set_index('id_vta'), on='id_venta')
df_total

Unnamed: 0,id_f,id_pr,id_venta,q,nombre,precio,dia,factura
0,1,4,1,10,SFP,25,11/02/2024,1001
1,2,1,2,8,Cable,5,13/02/2004,1002
2,3,2,1,100,Conec-Rj11,3,11/02/2024,1001
3,4,3,3,43,Conec-Rj45,7,16/02/2004,1003
4,5,4,2,54,SFP,25,13/02/2004,1002
5,6,2,3,23,Conec-Rj11,3,16/02/2004,1003
6,7,3,1,14,Conec-Rj45,7,11/02/2024,1001
7,8,1,2,100,Cable,5,13/02/2004,1002
8,9,2,3,100,Conec-Rj11,3,16/02/2004,1003


Para perar por filas y obtener una columna como resultado para obtener el resultado de cada item facturado, en este caso se agregar una columna con la operación de los campos que interesa.

In [41]:
df_total['subtotal']=df_total['q']*df_total['precio']
df_total

Unnamed: 0,id_f,id_pr,id_venta,q,nombre,precio,dia,factura,subtotal
0,1,4,1,10,SFP,25,11/02/2024,1001,250
1,2,1,2,8,Cable,5,13/02/2004,1002,40
2,3,2,1,100,Conec-Rj11,3,11/02/2024,1001,300
3,4,3,3,43,Conec-Rj45,7,16/02/2004,1003,301
4,5,4,2,54,SFP,25,13/02/2004,1002,1350
5,6,2,3,23,Conec-Rj11,3,16/02/2004,1003,69
6,7,3,1,14,Conec-Rj45,7,11/02/2024,1001,98
7,8,1,2,100,Cable,5,13/02/2004,1002,500
8,9,2,3,100,Conec-Rj11,3,16/02/2004,1003,300
