# Dataframes

* Se construyen a partir de las series
* Es nuestra herramienta principal al utilizar Pandas de DS e IA.
* La informacion queda guardada de forma tabular


In [1]:
import numpy as np
import pandas as pd
from numpy.random import randn
#Colocamos el seed -> para tener siempre los mismos números aleatorios.
np.random.seed(40)

In [2]:
print(np.__version__)
print(pd.__version__)

1.22.4
1.4.2


## Creacion del dataframe
Creamos un dataframe con 5 filas y 4 columnas<BR>
Cada columna puede ser vista como una serie

In [3]:
datos=randn(5,4)
indices=['a','b','c','d','e']
columnas=['Valor','Desviacion','Media','Error']
df1=pd.DataFrame(data=datos, index=indices, columns=columnas)
df1

Unnamed: 0,Valor,Desviacion,Media,Error
a,-0.607548,-0.126136,-0.684606,0.928715
b,-1.844401,-0.467002,2.29249,0.48881
c,0.710267,1.055534,0.054073,0.257953
d,0.588282,0.885244,-1.017007,-0.133693
e,-0.438186,0.493443,-0.199009,-1.274984


## Trabajo con columnas
* Si deseamos obtener una columna, simplemente colocamos el nombre
* Esto nos regresa una serie con los datos e indices correspondientes

In [4]:
medias=df1['Media']
print(medias)

a   -0.684606
b    2.292490
c    0.054073
d   -1.017007
e   -0.199009
Name: Media, dtype: float64


* Si lo deseamos podemos usar una **sintaxis similar a SQL**, pero **no es recomendable pues puede crear confusion** con el uso de algún metodo o propiedad. Es mejor usar $[]$

In [5]:
desviaciones=df1.Desviacion
print(desviaciones)

a   -0.126136
b   -0.467002
c    1.055534
d    0.885244
e    0.493443
Name: Desviacion, dtype: float64


* Podemos obtener más de una columna listando sus nombres, hay que usar $[[]]$
* El resultado es un **dataframe**.

In [6]:
misDatos=df1[['Desviacion','Error']]
print(misDatos)

   Desviacion     Error
a   -0.126136  0.928715
b   -0.467002  0.488810
c    1.055534  0.257953
d    0.885244 -0.133693
e    0.493443 -1.274984


## Adicion de columnas
* Podemos adicionar nuevas columnas si lo necesitamos
* Simplemente hacemos una asignación con el nombre de la nueva columna

In [7]:
df1['Escalar']=[3,2,1,6,5]
print(df1)

      Valor  Desviacion     Media     Error  Escalar
a -0.607548   -0.126136 -0.684606  0.928715        3
b -1.844401   -0.467002  2.292490  0.488810        2
c  0.710267    1.055534  0.054073  0.257953        1
d  0.588282    0.885244 -1.017007 -0.133693        6
e -0.438186    0.493443 -0.199009 -1.274984        5


In [8]:
misDatos['Totales']=misDatos['Desviacion']+misDatos['Error']
print(misDatos)
# El warning es comun al hacer este tipo de operaciones
# Pandas siempre trata de proteger la informacion original, por lo que ciertas operaciones generan warnings

   Desviacion     Error   Totales
a   -0.126136  0.928715  0.802578
b   -0.467002  0.488810  0.021808
c    1.055534  0.257953  1.313488
d    0.885244 -0.133693  0.751551
e    0.493443 -1.274984 -0.781540


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  misDatos['Totales']=misDatos['Desviacion']+misDatos['Error']


## Borrado de columnas
* Podemos eliminar una columna si lo deseamos
* Para esto usamos `drop`, `axis=1` para indicar la columna
* El resultado es un dataframe sin la columna, el df original no se ve afectado, esto lo hace pandas por seguridad para no perder información que puede ser importante

In [9]:
datos2=misDatos.drop('Error',axis=1)
print(datos2)
print(misDatos)

   Desviacion   Totales
a   -0.126136  0.802578
b   -0.467002  0.021808
c    1.055534  1.313488
d    0.885244  0.751551
e    0.493443 -0.781540
   Desviacion     Error   Totales
a   -0.126136  0.928715  0.802578
b   -0.467002  0.488810  0.021808
c    1.055534  0.257953  1.313488
d    0.885244 -0.133693  0.751551
e    0.493443 -1.274984 -0.781540


* Si deseamos que se vea afectado el df original, debemos de indicar **inplace=True**

In [10]:
misDatos.drop('Error',axis=1, inplace=True)
print(misDatos)

   Desviacion   Totales
a   -0.126136  0.802578
b   -0.467002  0.021808
c    1.055534  1.313488
d    0.885244  0.751551
e    0.493443 -0.781540


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  misDatos.drop('Error',axis=1, inplace=True)


## Eliminacion de filas
Tambien podemos eliminar filas, usamos inplace si deseamos que sea en el df original


In [11]:
misDatos.drop('d', inplace =True)
misDatos

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  misDatos.drop('d', inplace =True)


Unnamed: 0,Desviacion,Totales
a,-0.126136,0.802578
b,-0.467002,0.021808
c,1.055534,1.313488
e,0.493443,-0.78154


In [12]:
print(misDatos)

   Desviacion   Totales
a   -0.126136  0.802578
b   -0.467002  0.021808
c    1.055534  1.313488
e    0.493443 -0.781540


## Dimension del dataframe
Encontramos las dimensiones de df

In [13]:
misDatos.shape

(4, 2)

## Seleccion de filas
* Podemos seleccionar filas también. Existen dos metodos
* El primero es usar locaciones por medio de `loc`
* Este nos regresa una serie

In [14]:
filaA=df1.loc['a']
              
print(filaA)

Valor        -0.607548
Desviacion   -0.126136
Media        -0.684606
Error         0.928715
Escalar       3.000000
Name: a, dtype: float64


* Con loc tambien podemos obtener más de una fila

In [15]:
filasVocal=df1.loc[['a','e']]
print(filasVocal)

      Valor  Desviacion     Media     Error  Escalar
a -0.607548   -0.126136 -0.684606  0.928715        3
e -0.438186    0.493443 -0.199009 -1.274984        5


* El segundo metodo es por medio de `iloc`, con el cual damos la locación por índice

In [16]:
fila3=df1.iloc[3]
print(fila3)

Valor         0.588282
Desviacion    0.885244
Media        -1.017007
Error        -0.133693
Escalar       6.000000
Name: d, dtype: float64


In [17]:
filasImpares=df1.iloc[[1,3]]
print(filasImpares)

      Valor  Desviacion     Media     Error  Escalar
b -1.844401   -0.467002  2.292490  0.488810        2
d  0.588282    0.885244 -1.017007 -0.133693        6


## Acceder a un elemento
Si deaseamos podemos acceder a un elemento en particular

In [18]:
print(df1)
valor=df1.loc['b','Media']
print(valor)

      Valor  Desviacion     Media     Error  Escalar
a -0.607548   -0.126136 -0.684606  0.928715        3
b -1.844401   -0.467002  2.292490  0.488810        2
c  0.710267    1.055534  0.054073  0.257953        1
d  0.588282    0.885244 -1.017007 -0.133693        6
e -0.438186    0.493443 -0.199009 -1.274984        5
2.2924903431515506


## Obtener subconjunto del dataset
Podemos obtener un subconjunto del dataset

In [19]:
tabla=df1.loc[['a','b'],['Error','Escalar']]
print(tabla)

      Error  Escalar
a  0.928715        3
b  0.488810        2
