# Pandas

In [143]:
import numpy as np
import pandas as pd

---
Series


In [144]:
etiquetas = ['a','b', 'c']
datos = [1,2,3]

pd.Series(data=datos, index=etiquetas)

a    1
b    2
c    3
dtype: int64

In [145]:
array = np.arange(2,5)
pd.Series(array)

0    2
1    3
2    4
dtype: int64

In [146]:
array = np.arange(2,5)
etiquetas = ['venta1', 'venta2', 'venta3']
serie = pd.Series(array, index=etiquetas)

In [147]:
serie

venta1    2
venta2    3
venta3    4
dtype: int64

In [148]:
serie['venta2']

np.int64(3)

In [149]:
datos = ['informatica', 300, 'impresosa', 200]
pd.Series(datos)

0    informatica
1            300
2      impresosa
3            200
dtype: object

In [150]:
serie1 = pd.Series([1, 2, 3], ['venta1', 'venta2', 'venta3'])
serie2 = pd.Series([4, 5, 6, 7], ['venta1', 'venta2', 'venta3', 'venta4'])

serie_suma = serie1 + serie2

serie_suma

venta1    5.0
venta2    7.0
venta3    9.0
venta4    NaN
dtype: float64

---
DataFrames

In [151]:
fila = ['ventas1', 'ventas2', 'ventas3']
columnas = ['zonaA', 'zonaB', 'zonaC']
datos = [[123, 421, 256], [234, 541, 257], [120, 451, 258]]


dataframe = pd.DataFrame(datos, columns=columnas, index=fila) # crear dataframe
dataframe

Unnamed: 0,zonaA,zonaB,zonaC
ventas1,123,421,256
ventas2,234,541,257
ventas3,120,451,258


In [152]:
dataframe.loc['ventas1'] # selecciona la fila 'ventas1'

zonaA    123
zonaB    421
zonaC    256
Name: ventas1, dtype: int64

In [153]:
dataframe.loc[['ventas1', 'ventas2']] # selecciona las filas con nombres 'ventas1' y 'ventas2'

Unnamed: 0,zonaA,zonaB,zonaC
ventas1,123,421,256
ventas2,234,541,257


In [154]:
dataframe

Unnamed: 0,zonaA,zonaB,zonaC
ventas1,123,421,256
ventas2,234,541,257
ventas3,120,451,258


In [155]:
dataframe['zonaA'] # selecciona el valor de la columna zonaA

ventas1    123
ventas2    234
ventas3    120
Name: zonaA, dtype: int64

In [156]:
dataframe[['zonaA', 'zonaB']] # selecciona las columnas 'zonaA' y 'zonaB'

Unnamed: 0,zonaA,zonaB
ventas1,123,421
ventas2,234,541
ventas3,120,451


In [157]:
print(dataframe.loc['ventas1']['zonaA']) # selecciona una fila y una columna

123


In [158]:
dataframe['TodasLasZonas'] = dataframe['zonaA'] + dataframe['zonaB'] + dataframe['zonaC'] # suma de las zonas

In [159]:
dataframe

Unnamed: 0,zonaA,zonaB,zonaC,TodasLasZonas
ventas1,123,421,256,800
ventas2,234,541,257,1032
ventas3,120,451,258,829


In [160]:
dataframe.drop('TodasLasZonas', axis=1) # Eliminar una columna de la visualización

Unnamed: 0,zonaA,zonaB,zonaC
ventas1,123,421,256
ventas2,234,541,257
ventas3,120,451,258


In [161]:
dataframe

Unnamed: 0,zonaA,zonaB,zonaC,TodasLasZonas
ventas1,123,421,256,800
ventas2,234,541,257,1032
ventas3,120,451,258,829


In [162]:
dataframe.drop('TodasLasZonas', axis=1, inplace=True) # Eliminar una columna definitivamente. axis=1 significa que se elimina la columna de la izquierda.
dataframe

Unnamed: 0,zonaA,zonaB,zonaC
ventas1,123,421,256
ventas2,234,541,257
ventas3,120,451,258


In [163]:
dataframe.drop('ventas3')

Unnamed: 0,zonaA,zonaB,zonaC
ventas1,123,421,256
ventas2,234,541,257


In [164]:
dataframe

Unnamed: 0,zonaA,zonaB,zonaC
ventas1,123,421,256
ventas2,234,541,257
ventas3,120,451,258


In [165]:
dataframe.drop('ventas3', inplace=True) # elimina la columna definitivamente
dataframe

Unnamed: 0,zonaA,zonaB,zonaC
ventas1,123,421,256
ventas2,234,541,257


In [166]:
dataframe.shape # Shape de la base de datos

(2, 3)

---

## Dataframes: Selección de datos con una condición

In [167]:
filas = 'ventas1 ventas2 ventas3'.split()
columnas = 'zonaA zonaB zonaC'.split()

datos = [[120,158,478],[234,675,324],[766,224,398]]

dataframe = pd.DataFrame(datos, columns=columnas, index=filas)
dataframe

Unnamed: 0,zonaA,zonaB,zonaC
ventas1,120,158,478
ventas2,234,675,324
ventas3,766,224,398


In [168]:
condicion = dataframe > 200
dataframe[condicion]

Unnamed: 0,zonaA,zonaB,zonaC
ventas1,,,478
ventas2,234.0,675.0,324
ventas3,766.0,224.0,398


In [169]:
dataframe


Unnamed: 0,zonaA,zonaB,zonaC
ventas1,120,158,478
ventas2,234,675,324
ventas3,766,224,398


In [170]:
condicion = dataframe['zonaA'] > 200
dataframe[condicion]

Unnamed: 0,zonaA,zonaB,zonaC
ventas2,234,675,324
ventas3,766,224,398


In [171]:
dataframe

Unnamed: 0,zonaA,zonaB,zonaC
ventas1,120,158,478
ventas2,234,675,324
ventas3,766,224,398


In [172]:
condicion = (dataframe['zonaA'] > 300) & (dataframe['zonaB'] > 200) 
dataframe[condicion]

Unnamed: 0,zonaA,zonaB,zonaC
ventas3,766,224,398


In [173]:
dataframe[condicion][['zonaA', 'zonaB']]

Unnamed: 0,zonaA,zonaB
ventas3,766,224


---

DataFrame: Modificación de los nombres de las filas

In [174]:
filas = 'ventas1 ventas2 ventas3'.split()
columnas = 'zonaA zonaB zonaC'.split()

datos = [[120,158,478],[234,675,324],[766,224,398]]

dataframe = pd.DataFrame(datos, columns=columnas, index=filas)
dataframe

Unnamed: 0,zonaA,zonaB,zonaC
ventas1,120,158,478
ventas2,234,675,324
ventas3,766,224,398


In [175]:
nuevas_filas = 'dia1 dia2 dia3'.split()

In [176]:
dataframe['dias'] = nuevas_filas
dataframe

Unnamed: 0,zonaA,zonaB,zonaC,dias
ventas1,120,158,478,dia1
ventas2,234,675,324,dia2
ventas3,766,224,398,dia3


In [177]:
dataframe.set_index('dias')

Unnamed: 0_level_0,zonaA,zonaB,zonaC
dias,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
dia1,120,158,478
dia2,234,675,324
dia3,766,224,398


In [178]:
dataframe

Unnamed: 0,zonaA,zonaB,zonaC,dias
ventas1,120,158,478,dia1
ventas2,234,675,324,dia2
ventas3,766,224,398,dia3


In [179]:
dataframe = dataframe.set_index('dias')
dataframe

Unnamed: 0_level_0,zonaA,zonaB,zonaC
dias,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
dia1,120,158,478
dia2,234,675,324
dia3,766,224,398


---
Pandas: Tratamiento de datos nulos o sin valor

In [180]:
diccionario = {'A':[4,5,np.nan], 'B':[1,2,3], 'C':[np.nan, 4, np.nan]}

In [182]:
dataframe = pd.DataFrame(diccionario)
dataframe

Unnamed: 0,A,B,C
0,4.0,1,
1,5.0,2,4.0
2,,3,


In [183]:
dataframe.dropna() # elimina filas con valores nulos

Unnamed: 0,A,B,C
1,5.0,2,4.0


In [185]:
dataframe.dropna(axis=1) # eliminar filas con NaN

Unnamed: 0,B
0,1
1,2
2,3


In [186]:
dataframe

Unnamed: 0,A,B,C
0,4.0,1,
1,5.0,2,4.0
2,,3,


In [187]:
dataframe.fillna(value=100) # reemplazar los valores NaN por 100

Unnamed: 0,A,B,C
0,4.0,1,100.0
1,5.0,2,4.0
2,100.0,3,100.0


In [188]:
valor_medio = dataframe.mean()
valor_medio

A    4.5
B    2.0
C    4.0
dtype: float64

In [189]:
dataframe.fillna(value=valor_medio) # valor_medio es el valor que se usará para llenar los valores nulos

Unnamed: 0,A,B,C
0,4.0,1,4.0
1,5.0,2,4.0
2,4.5,3,4.0


---
Pandas: Agrupación de los datos