## Sección 5: Módulo Pandas para análisis de datos

In [1]:
import numpy as np
import pandas as pd

---
### Series

In [3]:
etiquetas = ['a','b','c']
datos = [1,2,3]

pd.Series(data = datos, index=etiquetas)

a    1
b    2
c    3
dtype: int64

In [4]:
array = np.arange(2,5)
pd.Series(array)

0    2
1    3
2    4
dtype: int64

In [5]:
array = np.arange(2,5)
etiquetas = ['venta1','venta2','venta3']
serie = pd.Series(array,etiquetas)

In [6]:
serie['venta2']

3

In [7]:
datos2 = ['informatica',300,'impresora',400]
pd.Series(datos2)

0    informatica
1            300
2      impresora
3            400
dtype: object

In [8]:
serie1 = pd.Series([1,2,3],['ventas1','ventas2','ventas3'])
serie2 = pd.Series([4,5,6,7],['ventas1','ventas2','ventas3','ventas4'])

serie_suma = serie1 + serie2 # El valor que no ha podido sumar (ventas4) es valor nulo (NaN)

serie_suma

ventas1    5.0
ventas2    7.0
ventas3    9.0
ventas4    NaN
dtype: float64

---
### DataFrames

In [47]:
filas = ['ventas1','ventas2','ventas3']
columnas = ['zonaA','zonaB','zonaC']
datos = [[123,421,256],[234,541,257],[120,451,258]]

dataframe = pd.DataFrame(datos,filas,columnas) # crear dataframe
dataframe

Unnamed: 0,zonaA,zonaB,zonaC
ventas1,123,421,256
ventas2,234,541,257
ventas3,120,451,258


In [49]:
dataframe.loc['ventas1'] # selecciona la fila 'ventas1'

zonaA    123
zonaB    421
zonaC    256
Name: ventas1, dtype: int64

In [51]:
dataframe.loc[['ventas1','ventas2']] # selecciona las filas 'ventas1' y 'ventas2'

Unnamed: 0,zonaA,zonaB,zonaC
ventas1,123,421,256
ventas2,234,541,257


In [53]:
dataframe['zonaA'] # selecciona la columna 'zonaA'

ventas1    123
ventas2    234
ventas3    120
Name: zonaA, dtype: int64

In [55]:
dataframe[['zonaA','zonaC']] # selecciona las columnas 'zonaA' y 'zonaB'

Unnamed: 0,zonaA,zonaC
ventas1,123,256
ventas2,234,257
ventas3,120,258


In [57]:
dataframe.loc['ventas1']['zonaA'] # selecciona una fila y una columna

123

In [59]:
dataframe['Todaslaszonas'] = dataframe['zonaA'] + dataframe['zonaB']+ dataframe['zonaC'] # suma de los valores de las filas
dataframe

Unnamed: 0,zonaA,zonaB,zonaC,Todaslaszonas
ventas1,123,421,256,800
ventas2,234,541,257,1032
ventas3,120,451,258,829


In [61]:
dataframe.drop('Todaslaszonas',axis=1) # eliminar una columna de la visualización

Unnamed: 0,zonaA,zonaB,zonaC
ventas1,123,421,256
ventas2,234,541,257
ventas3,120,451,258


In [63]:
dataframe

Unnamed: 0,zonaA,zonaB,zonaC,Todaslaszonas
ventas1,123,421,256,800
ventas2,234,541,257,1032
ventas3,120,451,258,829


In [65]:
dataframe.drop('Todaslaszonas',axis=1, inplace=True) # eliminar una columna definitivamente
dataframe

Unnamed: 0,zonaA,zonaB,zonaC
ventas1,123,421,256
ventas2,234,541,257
ventas3,120,451,258


In [21]:
dataframe.drop('ventas3') # drop por defecto borra una fila (axis=0)

Unnamed: 0,zonaA,zonaB,zonaC
ventas1,123,421,256
ventas2,234,541,257


In [22]:
dataframe

Unnamed: 0,zonaA,zonaB,zonaC
ventas1,123,421,256
ventas2,234,541,257
ventas3,120,451,258


In [69]:
dataframe.drop('ventas3', inplace=True)
dataframe

Unnamed: 0,zonaA,zonaB,zonaC
ventas1,123,421,256
ventas2,234,541,257


In [71]:
dataframe.shape # forma de la base de datos

(2, 3)

---
### DataFrames: Selección de datos con una condición

In [89]:
filas = 'ventas1 ventas2 ventas3'.split()
columnas = 'zonaA zonaB zonaC'.split()

datos = [[120,340,250],[210,450,250],[310,210,140]]

dataframe = pd.DataFrame(datos, filas, columnas)
dataframe

Unnamed: 0,zonaA,zonaB,zonaC
ventas1,120,340,250
ventas2,210,450,250
ventas3,310,210,140


In [125]:
# Caso 1: Aplicar una condición al DataFrame completo
condicion = dataframe > 200 # los valores que no cumplen (>200) se reemplazan con NaN
dataframe[condicion]

Unnamed: 0,zonaA,zonaB,zonaC
ventas1,,340,250.0
ventas2,210.0,450,250.0
ventas3,310.0,210,


In [99]:
dataframe

Unnamed: 0,zonaA,zonaB,zonaC
ventas1,120,340,250
ventas2,210,450,250
ventas3,310,210,140


In [103]:
# Caso 2: Filtrar filas aplicando una condición a una columna específica
condicion = dataframe['zonaA'] > 200 # se eliminan filas donde 'zonaA' no cumple (>200)
dataframe[condicion]

Unnamed: 0,zonaA,zonaB,zonaC
ventas2,210,450,250
ventas3,310,210,140


In [105]:
dataframe

Unnamed: 0,zonaA,zonaB,zonaC
ventas1,120,340,250
ventas2,210,450,250
ventas3,310,210,140


In [117]:
condicion = (dataframe['zonaA'] > 200) | (dataframe['zonaB'] > 300)
dataframe[condicion]

Unnamed: 0,zonaA,zonaB,zonaC
ventas1,120,340,250
ventas2,210,450,250
ventas3,310,210,140


In [121]:
dataframe[condicion][['zonaB','zonaC']]

Unnamed: 0,zonaB,zonaC
ventas1,340,250
ventas2,450,250
ventas3,210,140


---
### DataFrames: Modificación de los nombres de las filas

In [196]:
filas = 'ventas1 ventas2 ventas3'.split()
columnas = 'zonaA zonaB zonaC'.split()

datos = [[100,200,250],[210,300,425],[250,310,124]]

dataframe = pd.DataFrame(datos, filas, columnas)
dataframe

Unnamed: 0,zonaA,zonaB,zonaC
ventas1,100,200,250
ventas2,210,300,425
ventas3,250,310,124


In [198]:
nuevas_filas = 'dia1 dia2 dia3'.split()

dataframe['dias'] = nuevas_filas
dataframe

Unnamed: 0,zonaA,zonaB,zonaC,dias
ventas1,100,200,250,dia1
ventas2,210,300,425,dia2
ventas3,250,310,124,dia3


In [200]:
# índice: etiqueta única que se usa para identificar y acceder a las filas
# método set_index: establece una columna (o varias) como índice

dataframe.set_index('dias') # Solo afecta a la visualización

Unnamed: 0_level_0,zonaA,zonaB,zonaC
dias,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
dia1,100,200,250
dia2,210,300,425
dia3,250,310,124


In [202]:
dataframe

Unnamed: 0,zonaA,zonaB,zonaC,dias
ventas1,100,200,250,dia1
ventas2,210,300,425,dia2
ventas3,250,310,124,dia3


In [204]:
dataframe = dataframe.set_index('dias') 

In [206]:
dataframe

Unnamed: 0_level_0,zonaA,zonaB,zonaC
dias,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
dia1,100,200,250
dia2,210,300,425
dia3,250,310,124


---
### Pandas: Tratamiento de datos nulos o sin valor

In [226]:
diccionario = {'A':[4,5,np.nan], 'B':[6,1,5], 'C':[np.nan, 4, np.nan]}

dataframe = pd.DataFrame(diccionario)
dataframe

Unnamed: 0,A,B,C
0,4.0,6,
1,5.0,1,4.0
2,,5,


In [263]:
dataframe.dropna() # elimina de la visualización los valores nulos

Unnamed: 0,A,B,C
1,5.0,1,4.0


In [232]:
dataframe.dropna(axis=1) # eliminar de la visualización filas con NaN

Unnamed: 0,B
0,6
1,1
2,5


In [234]:
dataframe

Unnamed: 0,A,B,C
0,4.0,6,
1,5.0,1,4.0
2,,5,


In [236]:
dataframe.fillna(value=100) # reemplazar los valores NaN por 100

Unnamed: 0,A,B,C
0,4.0,6,100.0
1,5.0,1,4.0
2,100.0,5,100.0


In [244]:
valor_medio = dataframe.mean()
valor_medio

A    4.5
B    4.0
C    4.0
dtype: float64

In [246]:
dataframe.fillna(value=valor_medio) # rellenar con el valor medio para no distorsionar los datos

Unnamed: 0,A,B,C
0,4.0,6,4.0
1,5.0,1,4.0
2,4.5,5,4.0


---
### Pandas: Agrupación de los datos

In [267]:
diccionario = {'dias':['dia1','dia1','dia2','dia2','dia3'], 'vendedores':['Antonio','Maria','Jose','Marta','Juan'], \
               'ventas':[100,400,200,500,300]}

dataframe = pd.DataFrame(diccionario)
dataframe

Unnamed: 0,dias,vendedores,ventas
0,dia1,Antonio,100
1,dia1,Maria,400
2,dia2,Jose,200
3,dia2,Marta,500
4,dia3,Juan,300


In [277]:
dataframe.groupby('dias')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7641605ad100>

In [279]:
dataframe.groupby('dias')['ventas'].mean() # Media de ventas por día

dias
dia1    250.0
dia2    350.0
dia3    300.0
Name: ventas, dtype: float64

In [281]:
dataframe.groupby('dias')['ventas'].sum() # Suma de ventas por día

dias
dia1    500
dia2    700
dia3    300
Name: ventas, dtype: int64

In [283]:
dataframe.groupby('dias').describe() # Estadísticas con los datos más habituales

Unnamed: 0_level_0,ventas,ventas,ventas,ventas,ventas,ventas,ventas,ventas
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max
dias,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
dia1,2.0,250.0,212.132034,100.0,175.0,250.0,325.0,400.0
dia2,2.0,350.0,212.132034,200.0,275.0,350.0,425.0,500.0
dia3,1.0,300.0,,300.0,300.0,300.0,300.0,300.0
