# Trabajar con librería Pandas

 - Crear dataframe desde listas, diccionarios
 - Leer desde fichero
 - Trabajar con columnas
 - Filtros, ordenaciones
 - Tratar fechas
 - Agregados
 - Exportar ficheros

Importamos la librería __Pandas__

In [23]:
import pandas as pd  # pd es la abreviatura estandar

Pasamos de un diccionario de listas a un dataframe (df) de Pandas

In [24]:
clientes = {'nombre': ['Jorge', 'Luis', 'Pilar', 'Ana'],
            'edad': [33, 25, 44, 27],
            'ciudad': ['Valladolid', 'Madrid', 'Madrid', 'Cuenca']   
            }
type(clientes)

dict

In [25]:
clientes = {'nombre': ['Jorge', 'Luis', 'Pilar', 'Ana'],
            'edad': [33, 25, 44, 27],
            'ciudad': ['Valladolid', 'Madrid', 'Madrid', 'Cuenca']   
            }

df_clientes = pd.DataFrame(clientes)
# El df toma como nombres de las columnas los campos del diccionario
print(type(df_clientes))
df_clientes

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,nombre,edad,ciudad
0,Jorge,33,Valladolid
1,Luis,25,Madrid
2,Pilar,44,Madrid
3,Ana,27,Cuenca


__Dimensiones__ del df

In [26]:
print(df_clientes.shape)
print(df_clientes.dtypes)

(4, 3)
nombre    object
edad       int64
ciudad    object
dtype: object


Crear un dataframe partiendo de una lista y especificando
el nombre de las columnas

In [27]:
l_clientes = [['Jorge', 33, 'Valladolid'],
              ['Luis', 25, 'Madrid'],
              ['Pilar', 44, 'Zaragoza'],
              ['Ana', 37, 'Cuenca']] 

#df_clientes = pd.DataFrame(l_clientes) 

df_clientes = pd.DataFrame(l_clientes, 
   columns=['nombre', 'edad', 'ciudad'])
df_clientes

Unnamed: 0,nombre,edad,ciudad
0,Jorge,33,Valladolid
1,Luis,25,Madrid
2,Pilar,44,Zaragoza
3,Ana,37,Cuenca


Crear un dataframe partiendo de una lista de diccionarios

In [28]:
lis_dic = [
        {'ciudad': 'Madrid', 'ventas': 100, 'centro': 'C1', 'año': 2019},
        {'ciudad': 'Valencia', 'ventas': 100, 'año': 2019},
        {'ciudad': 'Murcia', 'ventas': 100, 'centro': 'C6', 'año': 2019},
        { 'ventas': 100, 'centro': 'C6', 'año': 2019, 'nueva': 50}        
        ]

df = pd.DataFrame(lis_dic)
df

Unnamed: 0,ciudad,ventas,centro,año,nueva
0,Madrid,100,C1,2019,
1,Valencia,100,,2019,
2,Murcia,100,C6,2019,
3,,100,C6,2019,50.0


Lectura desde fichero: se indica el separador de campos y que infiera la cabecera

Extracto:

oficina;vendedor;producto;unidades

Madrid;m_vendedor1;P1;20

Madrid;m_vendedor1;P2;19

Madrid;m_vendedor1;P3;8

Madrid;m_vendedor1;P4;5

Recorrer un DataFrame con un bucle

In [29]:
df

Unnamed: 0,ciudad,ventas,centro,año,nueva
0,Madrid,100,C1,2019,
1,Valencia,100,,2019,
2,Murcia,100,C6,2019,
3,,100,C6,2019,50.0


In [30]:
nrows = len(df)
for i in range(nrows):
    print(df['centro'][i])
    if pd.isna(df['centro'][i]):
        print("reemplazo nulo")
        df['centro'][i] = 'Z9'

C1
nan
reemplazo nulo
C6
C6


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['centro'][i] = 'Z9'


In [31]:
df

Unnamed: 0,ciudad,ventas,centro,año,nueva
0,Madrid,100,C1,2019,
1,Valencia,100,Z9,2019,
2,Murcia,100,C6,2019,
3,,100,C6,2019,50.0


Objeto serie de Pandas

In [32]:
serie_hist = pd.Series(index=['Ene', 'Feb', 'Mar', 'Abril', 'Mayo', 'Junio'] , 
                                            data =[33,51,48,38,57,63])
serie_hist

Ene      33
Feb      51
Mar      48
Abril    38
Mayo     57
Junio    63
dtype: int64

In [33]:
serie_hist['Ene']

33

In [34]:
serie_hist[(serie_hist > 50)]

Feb      51
Mayo     57
Junio    63
dtype: int64

Crear un DataFrame partiendo de series

In [35]:
customer = {'edad' : pd.Series(index=['c1', 'c2', 'c3'] , data =[33,31,28]),
            'consumo' : pd.Series(index=['c1', 'c2', 'c3'] , data =[100,141,200])}
df_cus = pd.DataFrame(customer) 
df_cus

Unnamed: 0,edad,consumo
c1,33,100
c2,31,141
c3,28,200


Leer DataFrame desde fichero

In [36]:
df_ventas = pd.read_csv("../Curso Python Avanzado/ficheros/f_ventas1.txt",
                 sep=';', header='infer')
df_ventas.head(10)

Unnamed: 0,oficina,vendedor,producto,unidades
0,Madrid,m_vendedor1,P1,20
1,Madrid,m_vendedor1,P2,19
2,Madrid,m_vendedor1,P3,8
3,Madrid,m_vendedor1,P4,5
4,Madrid,m_vendedor1,P5,18
5,Madrid,m_vendedor4,P14,1
6,Madrid,m_vendedor4,P15,7
7,Valencia,v_vendedor1,P10,1
8,Valencia,v_vendedor1,P11,2
9,Valencia,v_vendedor1,P12,0


In [37]:
!dir

 El volumen de la unidad C es Windows
 El n£mero de serie del volumen es: 02CF-4724

 Directorio de C:\Users\jhoro\Curso Python Avanzado

31/03/2022  14:10    <DIR>          .
17/03/2022  19:47    <DIR>          ..
24/03/2022  20:46    <DIR>          .ipynb_checkpoints
24/03/2022  19:43             2.423 EJ09_pandas2_b (1).ipynb
24/03/2022  19:19            17.213 EJ09_pandas2_b.ipynb
03/03/2022  22:04             5.004 Ejemplos iniciales.ipynb
24/03/2022  20:29             4.959 ejercicios de numpy.ipynb
24/03/2022  19:34            19.054 Ejercicio_1.ipynb
10/03/2022  19:57    <DIR>          ficheros
24/03/2022  19:40            68.394 nulos.ipynb
10/03/2022  19:19            34.523 P08_funciones.ipynb
31/03/2022  14:10            63.996 P11_pandas1.ipynb
17/03/2022  21:24           145.375 P12_pandas2.ipynb
24/03/2022  20:19            33.607 P13_numpy.ipynb
              10 archivos        394.548 bytes
               4 dirs  433.986.019.328 bytes libres


In [38]:
df_ventas = pd.read_csv("ficheros\\f_ventas1.csv",
                 sep=';', header='infer')
df_ventas.head(10)

Unnamed: 0,oficina,vendedor,producto,unidades
0,Madrid,m_vendedor1,P1,20
1,Madrid,m_vendedor1,P2,19
2,Madrid,m_vendedor1,P3,8
3,Madrid,m_vendedor1,P4,5
4,Madrid,m_vendedor1,P5,18
5,Madrid,m_vendedor4,P14,1
6,Madrid,m_vendedor4,P15,7
7,Valencia,v_vendedor1,P10,1
8,Valencia,v_vendedor1,P11,2
9,Valencia,v_vendedor1,P12,0


In [40]:
# Si la carpeta del fichero estuviera al mismo nivel que la ruta del script 
# ponemos .. y luego el nombre de la carpeta donde está
df_ventas = pd.read_csv("../Curso Python Avanzado/ficheros/f_ventas1.csv",
                 sep=';', header='infer')
df_ventas.head(10)

Unnamed: 0,oficina,vendedor,producto,unidades
0,Madrid,m_vendedor1,P1,20
1,Madrid,m_vendedor1,P2,19
2,Madrid,m_vendedor1,P3,8
3,Madrid,m_vendedor1,P4,5
4,Madrid,m_vendedor1,P5,18
5,Madrid,m_vendedor4,P14,1
6,Madrid,m_vendedor4,P15,7
7,Valencia,v_vendedor1,P10,1
8,Valencia,v_vendedor1,P11,2
9,Valencia,v_vendedor1,P12,0


Obtener los 5 __primeras filas__

In [None]:
df_ventas.dtypes

Se puede especificar los tipos en la lectura. Esto reduce tiempos en ficheros voluminoso

In [None]:
tipos = {'oficina': 'str', 'vendedor': 'str', 'producto': 'str', 'unidades': 'int'}
df_ventas = pd.read_csv("ficheros\\f_ventas1.csv",
                 sep=';', header='infer', dtype=tipos)
df_ventas.head(10)

In [None]:
df_ventas.dtypes

__Numero__ de __filas__

In [None]:
df_ventas.count()

Obtener una __muestra__ del df

In [None]:
df_ventas.sample(2)

Tipos de datos los campos

In [None]:
df_ventas.dtypes

Otra forma de leer manejando la ruta y nombre del fichero con variables

In [None]:
ruta = "ficheros\\"
nomfich = "f_ventas1.txt"
df_ventas = pd.read_csv(ruta+nomfich, sep=';', header='infer')
df_ventas.head(10)

Tratamiento de decimales

In [None]:
# En este fichero el separador de decimales es .
df_ven = pd.read_csv("ficheros\\f_ventas_dec1.txt",
                 sep=';', header='infer')
df_ven.head(10)

In [None]:
df_ven.dtypes

In [None]:
# En este fochero el separador de decimales es ,. Esto hay que indicarlo como opción de lectura
df_ven = pd.read_csv("ficheros\\f_ventas_dec2.txt",
                 sep=';', header='infer', decimal=",")
df_ven.head(10)

In [None]:
df_ven.dtypes

Lectura desde fichero Excel

In [None]:
df_ventas1 = pd.read_excel("ficheros\\f_ventas1.xlsx")
df_ventas1.head(10)

Acceder a una columna

In [None]:
#Tabla completa
df_clientes

In [None]:
# acceder a una columna:
print(df_clientes['nombre'])
print(df_clientes.nombre)

__Añadir__ columnas

In [None]:
df_clientes['ciudad'] = "Lugo"
df_clientes['ciudad'] = ["Lugo","Murcia","León", "Soria"]
df_clientes

In [None]:
df_clientes['ingresos'] = [40,30,35,28]
df_clientes['costes'] = [10,8,11,9]
df_clientes['margen'] = df_clientes['ingresos'] - df_clientes['costes']
df_clientes['fec'] = '31012019'
df_clientes['año'] = df_clientes['fec'].str[-4:]
df_clientes

In [None]:
df_clientes.dtypes

Tratamiento de fechas

In [None]:
df_clientes['fec'] = pd.to_datetime(df_clientes['fec'], format="%d%m%Y") # paso de string a datetime
df_clientes.dtypes

Si el formato fuera 'yyyy-mm-dd' se podría transformar con el médtodo astype

In [None]:
df_clientes['fec_d'] = '2020-02-15'
df_clientes['fec_d'] = df_clientes['fec_d'].astype('datetime64[ns]') # solo valido en formato 'yyyy-mm-dd'
df_clientes

In [None]:
df_clientes['fec'] = fimpd.to_datetime(df_clientes['fec'], format="%d%m%Y") # paso de string a datetime
df_clientes['fec2'] = df_clientes['fec'].dt.strftime('%d/%m/%y') # paso de datetime a string
df_clientes

In [None]:
df_clientes['edad_s1'] = df_clientes['edad'].astype('str')

In [None]:
df_clientes, df_clientes.dtypes

__Eliminar__ columna

Para acceder a métodos propios de string o datetime añadir .str o .dt

In [None]:
df_clientes['año'] = df_clientes['fec'].dt.year
df_clientes['nombre'] = df_clientes['nombre'].str.upper()
df_clientes['lon_nombre'] = df_clientes['nombre'].str.len()
df_clientes['inicial'] = df_clientes['nombre'].str[0:1]
#df_clientes['fec'].dt.month
#df_clientes['fec'].dt.day
df_clientes

In [None]:
#eliminar columna
del df_clientes['año']
#df_clientes = df_clientes.drop('año', 1)
df_clientes

Conversión de tipos

In [None]:
df_clientes.dtypes

In [None]:
df_clientes['edad_s']=df_clientes['edad'].astype('str')
df_clientes.dtypes # comprobamos los tipos

Aplicar __transformaciones__ en pandas con __funciones__

In [None]:
#Función apply para aplicar transformaciones
# bajo < 10, medio (10-25), alto ( > 25)
def rangos(val):
    if val <= 10:
        rango='bajo'
    elif val > 10 and val <= 25:
        rango = 'medio'
    else:
        rango='alto'
    return(rango)

df_clientes['rango_margen']=df_clientes['margen'].apply(rangos)

In [None]:
df_clientes

In [None]:
df_clientes

Lo mismo, pero con función Lambda

In [None]:
# lo mismo, pero con función lambda
f = lambda x : 'alto' if x >= 25 else 'bajo'

df_clientes['rango_margen']=df_clientes['margen'].apply(f)
df_clientes['rango_margen3']=df_clientes['margen'].apply(lambda x: 'alto' if x >= 25 else 'bajo' )

In [None]:
df_clientes

Método plot para gráficas

In [None]:
df_clientes.plot.scatter('ingresos', 'margen')

In [None]:
df_clientes.plot.bar('nombre', 'margen')

Tratar todas las columnas de un dataframe

In [None]:
#tratar todas las columnas en un bucle:
print(type(df_clientes.columns))
for col in df_clientes.columns:
    print(col)

In [None]:
df_clientes.columns

In [None]:
for col in df_clientes.columns:
    print(col)
    if col == 'ciudad':
        df_clientes[col] = df_clientes[col] + " ( España)"
df_clientes

El paso por __referencia__ también nos afecta en dataframe

In [None]:
df_clientes

In [None]:
#df_clientes3 = df_clientes # otra opción mejor: df_clientes.copy()
df_clientes3 = df_clientes.copy()
df_clientes['nombre'] = ['Pepe', 'Luis M.', 'Pilar J.', 'Ana Z.']
df_clientes3 

Método __loc__ para filtrar filas y columnas

In [None]:
# fila 0 columna nombre. 
df_clientes2 = df_clientes.loc[0,'nombre']
df_clientes2

In [None]:
# filas 0 a 2 columnas nombre y ciudad
df_clientes2 = df_clientes.loc[0:2,['nombre', 'ciudad']]
df_clientes2

In [None]:
# todas las filas columnas nombre y ciudad
df_clientes2 = df_clientes.loc[:,['nombre', 'ciudad']].copy()
df_clientes2

Filtrar solo columnas de un tipo

In [None]:
# filtrar columnas de un tipo (string)
df_clientes2 = df_clientes.loc[: ,  df_clientes.dtypes == object]
df_clientes2

In [None]:
df_clientes

In [None]:
df_clientes2 = df_clientes.loc[df_clientes['edad'] > 35, :]
df_clientes2

Otra opción es emplear el método __iloc__


In [None]:
# fila 0 columna 0 nombre
df_clientes2 = df_clientes.iloc[0,0]
# filas 0 a 2 columnas 0 y 1 nombre y ciudad
df_clientes2 = df_clientes.iloc[0:2,[0,1]]
df_clientes2

Bucle para recorrer un dataframe usando loc

In [None]:
for i in range(len(df_clientes)):
    print(df_clientes.iloc[i,:])

__Filtrar filas__ en un dataframe

In [None]:
# filtrado por condición
df_clientes[df_clientes.nombre=="Ana"]

Podemos usar el método query también

In [None]:
df_clientes.query("nombre=='Ana'")

Con __timeit__ podemos comparar tiempos

In [None]:
%%timeit
df_clientes.query("nombre=='Ana'")

In [None]:
%%timeit
df_clientes[df_clientes.nombre=="Ana"]

In [None]:
df_clientes[df_clientes.nombre=="Ana"][['nombre', 'edad']]

In [None]:
# filtrado por condición
df_clientes[df_clientes.margen >=20]

In [None]:
df_clientes[df_clientes.ingresos.isin([10,30,40])]

In [None]:
# filtrado por condición  NOT IN 
# ~ también ALT GR + 4 y luego el caracter

df_clientes[~df_clientes.ingresos.isin([10,30,40])]
#df_clientes[np.logical_not(df_clientes.ingresos.isin([10,30,40]))]

In [None]:
# filtrado por condición
df_clientes[df_clientes.ciudad=="Murcia ( España)"][['nombre','edad']]

__Ordenar__ un dataframe

Método sort

In [None]:
df_clientes.sort_values(by = 'nombre') # ordenar por nombre

In [None]:
df_clientes.sort_values(by = 'margen', ascending = False) # descendente

In [None]:
# Ordenar y filtrar campos
df_clientes.sort_values(by = 'nombre')[['nombre','ciudad']]

In [None]:
df_clientes.sort_index() # ordenar por indice

Varios campos. Combinar ascendente y descendente

In [None]:
df_clientes.sort_values(by=['nombre', 'ciudad'], ascending=[True,False])

__Renombrado__ de columnas

In [None]:
#Renombrado de columnas:
df_clientes2 = df_clientes.rename(columns={"rango_margen": "rango_mar"})
df_clientes2

Crear __rangos__

In [None]:
bins = [0,20,25,30]
df_clientes['rango_mar2'] = pd.cut(df_clientes['margen'], bins,
         labels=False)
df_clientes

In [None]:
df_clientes['rango_mar2'].value_counts()

Valores únicos

In [None]:
df_clientes['rango_mar2'].unique

Rangos incluyendo label

In [None]:
bins = [0,20,25,30]
df_clientes['rango_mar2'] = pd.cut(df_clientes['margen'], bins,
         labels=['bajo', 'medio', 'alto'])
df_clientes

In [None]:
def rangos_mar(val):
    if val <= 20:
        rango=0
    elif val <= 25:
        rango = 1
    elif val <= 30:
        rango = 2
    else:
        rango = 3
    return(rango)
df_clientes['rango_mar3']=df_clientes['margen'].apply(rangos_mar)
df_clientes

Modificar sólo una parte del df

In [None]:
df_clientes2 = df_clientes.copy()

In [None]:
df_clientes2.loc[0:1,'año'] = df_clientes.loc[0:1,'año'] + 1

In [None]:
df_clientes2

__Pivotar__ tablas

In [None]:
df_clientes.pivot_table(values='edad', index='nombre', columns='ciudad') 

Métodos para obtener __estadísticos__

In [None]:
df_clientes

In [None]:
df_clientes.pivot_table(values=['edad', 'margen'], index='nombre', columns='ciudad') 

In [None]:
#Estadísticos:
df_clientes.describe()

In [None]:
df_clientes['ciudad'].describe()

In [None]:
df_clientes['edad'].mean()

In [None]:
df_clientes['ingresos'].sum()

In [None]:
df_clientes['ingresos'].cumsum()

In [None]:
df_clientes['ingresos'].quantile(0.5)

In [None]:
Q1 = df_clientes['ingresos'].quantile(0.25)
Q1

In [None]:
Q2 = df_clientes['ingresos'].quantile(0.75)
Q2

In [None]:
df_clientes['ingresos'].hist()

__Tablas cruzadas__ crosstab

In [None]:
#Conteo
pd.crosstab(df_ventas['oficina'], df_ventas['producto'])

In [None]:
#Funciones de agregación
pd.crosstab(df_ventas['oficina'], df_ventas['producto'], values=df_ventas['unidades'], aggfunc='sum')

In [None]:
df_ventas.hed()

Obtener __agregados__

In [None]:
df_ventas['unidades'].mean()

In [None]:
df_ventas

In [None]:
#agregados
# sumatorio y valor medio por oficina
df_ventas.groupby(['oficina']).sum()

In [None]:
df_ventas.groupby(['oficina']).sum()[['unidades']]
#df_ventas.groupby(['oficina']).sum()[['unidades', 'margen']]

In [None]:
# si no queremos que los campos de agrupación sean índice
df_ventas.groupby(['oficina'], as_index=False).sum()[['oficina','unidades']]

In [None]:
df_ventas.groupby(['oficina']).agg(['sum', 'mean'])[['unidades']]

In [None]:
df_ventas.groupby(['oficina']).agg(
  avg_unidades = ('unidades', 'mean'),
  sum_distance = ('unidades', 'sum')
)

In [None]:
# Organización interna de un grupo
grupos = df_ventas.groupby(['oficina'])
for n, grupo in grupos:
    print(n)
    print(grupo)

In [None]:
df_ventas

In [None]:
df_ventas.groupby(['oficina']).sum().unidades

In [None]:
# añadir un having 
res = df_ventas.groupby(['oficina']).sum()['unidades']
res [ res > 100]

In [None]:
df_ventas.groupby(['oficina']).unidades.sum()

In [None]:
df_ventas.groupby(['oficina']).mean().round(2)

Manejar __grupos__

In [None]:
grupos = df_ventas.groupby(['oficina','producto'])
for n, grupo in grupos:
    print(n)
    print(grupo)

__Exportar__ a fichero csv

In [None]:
df_ventas

Graficos

In [None]:
#plot muestra las métricas en altura de barras frente a los valores del índice
df_ventas.groupby(['oficina']).sum().plot(kind="bar")

In [None]:
ax = df_ventas.groupby(['oficina']).sum().plot(kind="bar")
ax.set_title("Ventas por oficina", fontsize=12)
ax.set_ylabel("Unidades vendidas", fontsize=12)
ax.set_xlabel("Oficina", fontsize=12)

In [None]:
type(ax)

In [None]:
df_ventas.groupby(['producto']).sum().plot(kind="bar")

In [None]:
df_ventas.to_csv("ficheros\\export_df1.txt", index=False)

In [None]:
#exportación a Excel
df_ventas.to_excel("ficheros\\expexcel_df1.xlsx", index=False)

In [None]:
#exportacion a JSON
df_ventas.to_json("C:\\trabajo\\cursos estandar\\Phyton\\ficheros\\expjson_df1.json")

In [None]:
#exportacion a JSON con otra orientación (tabla)
df_ventas.to_json("ficheros\\ventas.json", orient='table')

Lectura desde tablas SAS

In [None]:
df = pd.read_sas("ficheros\\customer1.sas7bdat", format='sas7bdat', encoding = 'latin-1')
df.head()

Lectura desde JSON

In [None]:
df_lc = pd.read_json("ficheros\\localizaciones.json")
df_lc.head(5)

In [None]:
df_iris = pd.read_json("https://raw.githubusercontent.com/domoritz/maps/master/data/iris.json")
df_iris.head(5)

In [None]:
#pasar de df a lista de diccionarios
lisdoc = df_ventas.to_dict(orient='records')

In [None]:
lisdoc

In [None]:
lis_d = df_ventas.values.tolist()
lis_d

Creación de data frames en base a rangos de valores

In [None]:
date_from = "2020-01-01"
date_to = "2020-01-05"
fechas = pd.date_range(date_from, date_to, freq="D")
fechas

In [None]:
df = pd.DataFrame(fechas, columns=['fec'])
df

In [None]:
df['ventas'] = range(1,6)
df

Obtener datos de una __BBDD__. Antes hacer: conda install -c anaconda mysql-connector-python 

In [None]:
import mysql.connector

In [None]:
import mysql.connector
connmysql = mysql.connector.connect(
  host="localhost",
  user="root",
  passwd="root",
  use_pure = True
)
print(connmysql)

In [None]:
cursordb = connmysql.cursor()
sql = "select cod_tarifa, cod_cliente, hc_consumo FROM dwh_consumo.hc_consumo"
cursordb.execute(sql)
res = cursordb.fetchall() #lista de tuplas

df = pd.DataFrame(res, columns=['cod_tarifa', 'cod_cliente', 'hc_consumo'])

In [None]:
df