# Pandas

In [1]:
import pandas as pd
import numpy as np

## Series

In [2]:
etiquetas = ['a', 'b', 'c']
datos = [1,2,3]
pd.Series(data=datos, index=etiquetas)

a    1
b    2
c    3
dtype: int64

In [3]:
array = np.random.randint(0,6,4)
pd.Series(array)

0    2
1    3
2    2
3    3
dtype: int32

- En la celda anerior, la primer columna son los indices autogenerados y el la segunda el contenido de los datos. en la celda 3 le dimos tanto los indices com los datos

In [4]:
array = np.arange(20,23)
labels = ['venta1', 'venta2', 'venta3']
pd.Series(array, labels)

venta1    20
venta2    21
venta3    22
dtype: int32

- Para acceder a un valor especifico de la serie usamos la etiqueta o la posicion:

In [5]:
serie = pd.Series(array, labels)

In [6]:
serie['venta1']

20

In [7]:
serie[0]

20

- Los datos no deben ser necesariamente enteros, puede ser cualquier tipo

In [8]:
datos2 = [True, 10, 'hola', 10.24]
serie2 = pd.Series(datos2)

In [9]:
serie2

0     True
1       10
2     hola
3    10.24
dtype: object

- Puedo sumar dos series con la misma cantidad de datos, si son distintas, lo va a hacer, pero en el diferencial de cantidad les va a poner NaN como valor

In [10]:
s1 = pd.Series([1, 2, 3], ['v1', 'v2', 'v3'])
s2 = pd.Series([4,5,6], ['v1', 'v2', 'v3'])
s1+s2

v1    5
v2    7
v3    9
dtype: int64

In [11]:
s3 =pd.Series([1, 2, 3, 8], ['v1', 'v2', 'v3', 'v4'])
s1+s3

v1    2.0
v2    4.0
v3    6.0
v4    NaN
dtype: float64

# DataFrames

- Es una tabla con filas, columnas y valores

In [12]:
filas = ['v1', 'v2', 'v3']
cols = ['zona1', 'zona2', 'zona3']
datos = [[123, 456, 789],[345, 567, 765], [4, 56, 67]]
# Cada una de las listas dentro de datos sera una fila
df = pd.DataFrame(datos, filas, cols)
df

Unnamed: 0,zona1,zona2,zona3
v1,123,456,789
v2,345,567,765
v3,4,56,67


- Para conseguir todas las columnas de una fila:

In [13]:
df.loc['v1']

zona1    123
zona2    456
zona3    789
Name: v1, dtype: int64

- Para seleccionar varias filas --> df.loc[['v1','v2']]
- Si ademas quiero una sola columna de la fila seleccionada, agrego [] con el nombre de la columna o el indice de la misma

In [14]:
df.loc['v1']['zona1']

123

In [15]:
df.loc['v1'][0]

123

- Todo lo anterior sin el .loc funciona igual pero para el primer []

In [16]:
df['zona1']

v1    123
v2    345
v3      4
Name: zona1, dtype: int64

In [17]:
df[['zona1', 'zona3']]

Unnamed: 0,zona1,zona3
v1,123,789
v2,345,765
v3,4,67


- Agregar una columna mas

In [18]:
df['TodasLasZonas'] = df['zona1'] + df['zona2'] + df['zona3']
df

Unnamed: 0,zona1,zona2,zona3,TodasLasZonas
v1,123,456,789,1368
v2,345,567,765,1677
v3,4,56,67,127


- Para borrar una columna

In [19]:
df

Unnamed: 0,zona1,zona2,zona3,TodasLasZonas
v1,123,456,789,1368
v2,345,567,765,1677
v3,4,56,67,127


In [20]:
df.drop('TodasLasZonas', axis=1)

Unnamed: 0,zona1,zona2,zona3
v1,123,456,789
v2,345,567,765
v3,4,56,67


In [21]:
df

Unnamed: 0,zona1,zona2,zona3,TodasLasZonas
v1,123,456,789,1368
v2,345,567,765,1677
v3,4,56,67,127


* Para que se haga efectivo el borrado, puedo hacer de dos formas, agregando el parametro inplace=True o asignando esa sentencia a una variable
* df = df.drop('TodasLasZonas', axis=1)

In [22]:
df.drop('TodasLasZonas', axis=1, inplace=True)
df

Unnamed: 0,zona1,zona2,zona3
v1,123,456,789
v2,345,567,765
v3,4,56,67


* Para borrar una fila, uso el axis en 0 o directramente no lo pongo

## Seleccion de datos mediante una condicion

In [23]:
filas = "ventas1 ventas2 ventas3".split()
filas
columnas = 'zonaA zonaB zonaC'.split()
columnas

['zonaA', 'zonaB', 'zonaC']

In [24]:
datos = [[120, 340, 250], [210, 450, 250], [310, 210, 140]]

In [25]:
df = pd.DataFrame(datos, filas, columnas)

In [33]:
df

Unnamed: 0,zonaA,zonaB,zonaC
ventas1,120,340,250
ventas2,210,450,250
ventas3,310,210,140


* Para ver el df sacando los datos que no cumplen con una condicion:

In [28]:
condicion = df > 200

In [29]:
df[condicion]

Unnamed: 0,zonaA,zonaB,zonaC
ventas1,,340,250.0
ventas2,210.0,450,250.0
ventas3,310.0,210,


In [32]:
df

Unnamed: 0,zonaA,zonaB,zonaC
ventas1,120,340,250
ventas2,210,450,250
ventas3,310,210,140


* Para ver las filas que cumplen con una condicion:

In [31]:
condicion = df['zonaA'] > 200
df[condicion]

Unnamed: 0,zonaA,zonaB,zonaC
ventas2,210,450,250
ventas3,310,210,140


In [34]:
condicion = (df['zonaA'] > 200) & (df['zonaB'] > 300)
df[condicion]

Unnamed: 0,zonaA,zonaB,zonaC
ventas2,210,450,250


In [35]:
df[condicion][['zonaB', 'zonaC']]

Unnamed: 0,zonaB,zonaC
ventas2,450,250


## Modificacion de los nombres de las filas

In [39]:
filas = "ventas1 ventas2 ventas3".split()
columnas = 'zonaA zonaB zonaC'.split()
datos = [[100, 200, 250], [210, 300, 425], [250, 310, 124]]
df = pd.DataFrame(datos, filas, columnas)

In [44]:
df

Unnamed: 0,zonaA,zonaB,zonaC,dias
ventas1,100,200,250,dia1
ventas2,210,300,425,dia2
ventas3,250,310,124,dia3


* Agregamos una columna nueva con los datos de "nuevas_filas"

In [41]:
nuevas_filas = "dia1 dia2 dia3".split()
nuevas_filas

['dia1', 'dia2', 'dia3']

In [42]:
df['dias'] = nuevas_filas

In [43]:
df

Unnamed: 0,zonaA,zonaB,zonaC,dias
ventas1,100,200,250,dia1
ventas2,210,300,425,dia2
ventas3,250,310,124,dia3


* ahora hacemos que la columna que agregamos, pase a la primer posicion de la izq

In [46]:
df.set_index('dias', inplace=True)

In [47]:
df

Unnamed: 0_level_0,zonaA,zonaB,zonaC
dias,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
dia1,100,200,250
dia2,210,300,425
dia3,250,310,124


## Tratamiento de datos nulos o sin valor

In [48]:
diccionario = {
    'A': [4, 5, np.nan],
    'B': [6, 1, 5],
    'C': [np.nan, 4, np.nan]
}

df = pd.DataFrame(diccionario)
df

Unnamed: 0,A,B,C
0,4.0,6,
1,5.0,1,4.0
2,,5,


* Para borrar las filas con valor nulo usamos df.dropna()

In [49]:
df.dropna()

Unnamed: 0,A,B,C
1,5.0,1,4.0


* para borrar las columnas con valor nulo, le paso el axis=1

In [50]:
df.dropna(axis=1)

Unnamed: 0,B
0,6
1,1
2,5


In [51]:
df

Unnamed: 0,A,B,C
0,4.0,6,
1,5.0,1,4.0
2,,5,


* Para ponerle un valor a los NaN

In [54]:
df.fillna(value=100) #falta el inplace

Unnamed: 0,A,B,C
0,4.0,6,100.0
1,5.0,1,4.0
2,100.0,5,100.0


In [53]:
df

Unnamed: 0,A,B,C
0,4.0,6,
1,5.0,1,4.0
2,,5,


In [56]:
valor_medio = df.mean()
valor_medio

A    4.5
B    4.0
C    4.0
dtype: float64

In [57]:
df.fillna(value=valor_medio)

Unnamed: 0,A,B,C
0,4.0,6,4.0
1,5.0,1,4.0
2,4.5,5,4.0


## Agrupacion de datos