
<img style="float: left;;" src='Figures/alinco.png' height="100"/></a>

# <center> <font color= #000047> DataFrames en Pandas</font> </center>


# DataFrames

Los DataFrames son la principal herramienta de la librería de pandas y se inspiran directamente en el lenguaje de programación R. Podemos pensar en un DataFrame como un grupo de objetos Series juntos para compartir el mismo índice. ¡Usemos pandas para explorar este tema!

In [1]:
# Importar librerías
import numpy as np
import pandas as pd

## Selección e Indexación

Aprendamos los diversos métodos para obtener datos de un DataFrame

In [2]:
df= pd.DataFrame(np.random.randn(5,4))
print(df)

          0         1         2         3
0  0.553747 -0.335115  1.189771  0.275664
1  0.105198 -0.337352 -0.542403  0.338660
2 -0.503820  0.463611 -0.110793  0.537875
3  0.095747 -0.174665  0.765632  0.690525
4 -0.424041  0.803894  0.418056 -0.867862


In [3]:
df[0]

0    0.553747
1    0.105198
2   -0.503820
3    0.095747
4   -0.424041
Name: 0, dtype: float64

In [7]:
ind='A B C D E'.split()
df= pd.DataFrame(np.random.randn(5,4), index=ind, columns='W X Y Z'.split())
print(df)

          W         X         Y         Z
A  0.236764  1.752594  0.225746  0.388335
B  0.587074 -0.018796  0.261965  0.925602
C  0.400808  0.618183  1.271299  0.239199
D  1.414572  0.363157  1.789851  0.618117
E -0.122182 -0.806622 -0.351290  0.492906


In [12]:
df['W']

A    0.236764
B    0.587074
C    0.400808
D    1.414572
E   -0.122182
Name: W, dtype: float64

In [13]:
df.loc['C','X']

np.float64(0.6181832659396477)

In [14]:
df.iloc[2,1]

np.float64(0.6181832659396477)

In [16]:
df[['W','X']]

Unnamed: 0,W,X
A,0.236764,1.752594
B,0.587074,-0.018796
C,0.400808,0.618183
D,1.414572,0.363157
E,-0.122182,-0.806622


In [17]:
df.W

A    0.236764
B    0.587074
C    0.400808
D    1.414572
E   -0.122182
Name: W, dtype: float64

### Creando una nueva columna:

In [19]:
df['newColumn'] =df['X'] -df.Y*2
df

Unnamed: 0,W,X,Y,Z,newColumn
A,0.236764,1.752594,0.225746,0.388335,1.301102
B,0.587074,-0.018796,0.261965,0.925602,-0.542727
C,0.400808,0.618183,1.271299,0.239199,-1.924415
D,1.414572,0.363157,1.789851,0.618117,-3.216544
E,-0.122182,-0.806622,-0.35129,0.492906,-0.104042


### Eliminar Columnas

In [22]:
df.drop('newColumn',axis=1, inplace=True)
df

Unnamed: 0,W,X,Y,Z
A,0.236764,1.752594,0.225746,0.388335
B,0.587074,-0.018796,0.261965,0.925602
C,0.400808,0.618183,1.271299,0.239199
D,1.414572,0.363157,1.789851,0.618117
E,-0.122182,-0.806622,-0.35129,0.492906


también podemos eliminar las columnas de esta forma:

### Seleccionar Columnas

df.loc[]
df.iloc

O seleccionar en base a la posición en vez de alguna etiqueta

### Seleccionar subconjunto de filas y columnas

In [23]:
df.loc[['A', 'B'],['X','Y']]

Unnamed: 0,X,Y
A,1.752594,0.225746
B,-0.018796,0.261965


### Selección condicional

Una característica importante de los pandas es la selección condicional mediante notación de corchetes, muy similar a numpy:

In [24]:
df

Unnamed: 0,W,X,Y,Z
A,0.236764,1.752594,0.225746,0.388335
B,0.587074,-0.018796,0.261965,0.925602
C,0.400808,0.618183,1.271299,0.239199
D,1.414572,0.363157,1.789851,0.618117
E,-0.122182,-0.806622,-0.35129,0.492906


In [25]:
df>0

Unnamed: 0,W,X,Y,Z
A,True,True,True,True
B,True,False,True,True
C,True,True,True,True
D,True,True,True,True
E,False,False,False,True


In [26]:
df[df>0]

Unnamed: 0,W,X,Y,Z
A,0.236764,1.752594,0.225746,0.388335
B,0.587074,,0.261965,0.925602
C,0.400808,0.618183,1.271299,0.239199
D,1.414572,0.363157,1.789851,0.618117
E,,,,0.492906


In [27]:
df['W']>0

A     True
B     True
C     True
D     True
E    False
Name: W, dtype: bool

In [28]:
df[df['W']>0]

Unnamed: 0,W,X,Y,Z
A,0.236764,1.752594,0.225746,0.388335
B,0.587074,-0.018796,0.261965,0.925602
C,0.400808,0.618183,1.271299,0.239199
D,1.414572,0.363157,1.789851,0.618117


In [29]:
df[df['W']>0][['W','Z']]

Unnamed: 0,W,Z
A,0.236764,0.388335
B,0.587074,0.925602
C,0.400808,0.239199
D,1.414572,0.618117


In [31]:
df[(df['W']>0) & (df['Z']>0)]

Unnamed: 0,W,X,Y,Z
A,0.236764,1.752594,0.225746,0.388335
B,0.587074,-0.018796,0.261965,0.925602
C,0.400808,0.618183,1.271299,0.239199
D,1.414572,0.363157,1.789851,0.618117


## Más detalles del índice

Analicemos algunas características más de la indexación, incluido el restablecimiento del índice o resetearlo a otro valor. ¡También hablaremos sobre la jerarquía de índices!

In [36]:
df.reset_index()

Unnamed: 0,index,W,X,Y,Z,Test
0,A,0.236764,1.752594,0.225746,0.388335,H
1,B,0.587074,-0.018796,0.261965,0.925602,J
2,C,0.400808,0.618183,1.271299,0.239199,K
3,D,1.414572,0.363157,1.789851,0.618117,L
4,E,-0.122182,-0.806622,-0.35129,0.492906,M


In [37]:
newInd =['H','J','K','L','M']
df['Test']=newInd
df

Unnamed: 0,W,X,Y,Z,Test
A,0.236764,1.752594,0.225746,0.388335,H
B,0.587074,-0.018796,0.261965,0.925602,J
C,0.400808,0.618183,1.271299,0.239199,K
D,1.414572,0.363157,1.789851,0.618117,L
E,-0.122182,-0.806622,-0.35129,0.492906,M


In [39]:
df.set_index('Test',inplace=True)
df

Unnamed: 0_level_0,W,X,Y,Z
Test,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
H,0.236764,1.752594,0.225746,0.388335
J,0.587074,-0.018796,0.261965,0.925602
K,0.400808,0.618183,1.271299,0.239199
L,1.414572,0.363157,1.789851,0.618117
M,-0.122182,-0.806622,-0.35129,0.492906


## DataFrame Resumen
Hay un par de formas de obtener datos resumidos en DataFrames.<br>
<tt><strong>df.describe()</strong></tt> proporciona estadísticas resumidas en todas las columnas numéricas.<br>
<tt><strong>df.info y df.dtypes</strong></tt> muestra el tipo de datos de todas las columnas.

In [40]:
df.describe()

Unnamed: 0,W,X,Y,Z
count,5.0,5.0,5.0,5.0
mean,0.503407,0.381703,0.639514,0.532832
std,0.572322,0.936499,0.8686,0.259921
min,-0.122182,-0.806622,-0.35129,0.239199
25%,0.236764,-0.018796,0.225746,0.388335
50%,0.400808,0.363157,0.261965,0.492906
75%,0.587074,0.618183,1.271299,0.618117
max,1.414572,1.752594,1.789851,0.925602


In [41]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 5 entries, H to M
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   W       5 non-null      float64
 1   X       5 non-null      float64
 2   Y       5 non-null      float64
 3   Z       5 non-null      float64
dtypes: float64(4)
memory usage: 200.0+ bytes


# Datos Faltantes (Missing Data)

Mostraremos algunos métodos convenientes para lidiar con los datos faltantes en pandas:

# Groupby

El método groupby nos permite agrupar filas de datos y utilizar funciones de agregación

<strong>Ahora podemos utilizar el método .groupby () para agrupar filas en función del nombre de una columna. <br> Por ejemplo, agrupemos según la empresa. Esto creará un objeto DataFrameGroupBy:</strong>

# Operaciones

Hay muchas operaciones con pandas que serán realmente útiles para nosotros, por ejemplo:

### Info de Valores Unicos

### Deleccionando Datos

### Definiendo y aplicando funciones

### Eliminar una columna de forma permanente

### Obtener nombres de índice y columna:

### Ordenar y ordenar un DataFrame:

# Entrada y salida de datos

La librería de pandas permite leer una variedad de tipos de archivos usando sus métodos pd.read_. Echemos un vistazo a los tipos de datos más comunes:


## CSV
Los archivos de valores separados por comas (CSV), son archivos de texto que utilizan comas como delimitadores de campo.<br>
### CSV entrada

### CSV salida

## Excel
con Pandas podemos leer y escribir archivos de MS Excel. Sin embargo, esto solo importa datos, no fórmulas ni imágenes. Un archivo que contiene imágenes o macros puede causar que el método <tt>.read_excel()</tt> no funcione. 