<center><img src="/work/img/pandas.png"></center>


<h1>PanDas (PANel DAta)</h1>
<p><em><b>Documentación pandas:</b> <a href="https://pandas.pydata.org/docs/">https://pandas.pydata.org/docs/</a></em></p>
<p>Es una librería de Python que proporciona herramientas de análisis y manipulación de datos de alto rendimiento, utilizando potentes estructuras de datos.</p>
<p>Esta librería permite trabajar las 5 etapas del procesamiento y análisis de datos, independientemente de su origen: cargar, preparar, manipular, modelar y analizar.</p>
<center><img src="/work/img/procesos.png"></center>
<p>PanDas nos permite crear distintos dataframes.</p>

<h2>Dataframes</h2>
<p>Un dataframe es una estructura bi-dimensional de datos etiquetados, con columnas de tipos potencialmente diferentes. En palabras simples: una tabla.</p>

<p>Los PanDas dataframes constan de tres componentes principales:</p>
<ul>
<li>los datos</li>
<li>el índice</li>
<li>las columnas</li>
</ul>
<p>Cuando un dataframe es de una sola dimensión, se lo llama <b>serie</b>.<p>
<p>A los nombres de filas y columnas también se los llama <b>labels</b>.</p>

<center><img src="/work/img/df1.png"></center>

<h4>Comparación entre serie de PanDas y array de 1 dimensión de NumPy</h4>
<center><img src="/work/img/df2.png"></center>
<h4>Comparación entre dataframe de PanDas y array de 2 dimensiones de NumPy</h4>
<center><img src="/work/img/df3.png"></center>


<h2>Instalación</h2>
<p>Al igual que NumPy, necesitamos instalar PanDas para trabajar fuera de notebooks, para después poder importarlo a nuestros proyectos.</p>
<p>Recordá trabajar dentro de un entorno virtual antes de instalar nuevos paquetes.</p>
<p>Desde la terminal del SO ejecutamos:</p>
<center><img src="/work/img/instalar.png"></center>

In [1]:
# NO SE OLVIDEN DE EJECUTAR ESTE CUADRO!!!
# IMPORTAMOS LA LIBRERÍA PARA NUESTRO PRIMER PROYECTO
import pandas as pd

# ES USUAL TRABAJAR CON LAS LIBRERÍAS PANDAS Y NUMPY EN SIMULTÁNEO
import numpy as np

## Importando sets de datos

In [None]:
# Para importar archivos de extensión .xlsx
# método pd.read_excel('nombre_archivo.xlsx')

# Para importar archivos de extensión .csv
# método pd.read_csv('nombre_archivo.csv')

In [13]:
# Creando Series

l1 = [100,200,300,400,500]
li = ['A','B','C','D','E']
a1 = np.array(l1)
print(l1)
print()
print(a1)
print()
s1 = pd.Series(data=l1, index=li, dtype=np.float64, name='Fila')
print(s1)
print(s1['B'])
print(s1.iloc[1])

[100, 200, 300, 400, 500]

[100 200 300 400 500]

A    100.0
B    200.0
C    300.0
D    400.0
E    500.0
Name: Fila, dtype: float64
200.0
200.0


<h2>Creando estructuras de datos</h2>
<p>Vamos a crear la siguiente estructura:
<center><img src="/work/img/df.png"></center>

In [21]:
# CREANDO UN DATAFRAME DESDE CERO
# Paso 1. Creamos un arreglo NumPy
arr = np.array([['','Col1','Col2','Col3'],['Fila1',11,22,55],['Fila2',33,44,66],['Fila3',77,88,99]])
print(arr)

[['' 'Col1' 'Col2' 'Col3']
 ['Fila1' '11' '22' '55']
 ['Fila2' '33' '44' '66']
 ['Fila3' '77' '88' '99']]


In [22]:
# Paso 2. Lo convertimos a dataframe, especificando los tres componentes que nombramos: datos, índices y columnas
df = pd.DataFrame(data=arr[1:,1:], index=arr[1:,0], columns=arr[0,1:]) 
print(df)

      Col1 Col2 Col3
Fila1   11   22   55
Fila2   33   44   66
Fila3   77   88   99


In [23]:
# Otro ejemplo:
datos = np.array([['','Nombre','Apellido','DNI'],['Administrador','Armando','Gómez', '25365225'],['Ayudante','Raúl','Martínez','30256458'], ['Visitante','Josefina','Alvarez', '28569874']])
print(pd.DataFrame(data=datos[1:,1:], index=datos[1:,0], columns=datos[0,1:]))

                 Nombre  Apellido       DNI
Administrador   Armando     Gómez  25365225
Ayudante           Raúl  Martínez  30256458
Visitante      Josefina   Alvarez  28569874


In [24]:
# Una vez que practicamos suficiente, podemos hacerlo en un solo paso
# Si no asigno un rango de datos, índices y columnas, Pandas pone por defecto los números de filas y columnas como labels
df = pd.DataFrame(np.array([[1,2,3],[4,5,6]]))
print("DataFrame")
print(df)

DataFrame
   0  1  2
0  1  2  3
1  4  5  6


In [26]:
# Creando una serie Pandas (en un paso)
serie = pd.Series([1,2,3,4,10])
print('Serie:')
print(serie)

Serie:
0     1
1     2
2     3
3     4
4    10
dtype: int64


## Extrayendo información de los dataframes

In [40]:
#INFORMACIÓN DE LOS DATAFRAMES
# La manera de trabajar con Pandas es muy parecida a la de trabajar con Numpy: Tomamos nuestro 
# dataframe o serie, y le aplicamos un método.
# Veamos varios ejemplos de lo fácil que podemos trabajar para obtener información de un 
# dataframe.
data2 = np.array([['','Col1','Col2','Col3','Col4','Col5','Col6'],['Fila1',323,232,332,424,535,66],['Fila2',323,None,55,636,707,898], ['Fila3',389,584,155,66,632,584],['Fila4',856,324,521,74,365,817]])
df = pd.DataFrame(data=data2[1:,1:], index=data2[1:,0], columns=data2[0,1:])

print("DATAFRAME\n",df)
print("\nShape:", df.shape)
print('Filas:',len(df.index))
print('Columnas:',len(df.columns))
print('Celdas:',df.size)
print('\nTipos:\n',df.dtypes)

DATAFRAME
       Col1  Col2 Col3 Col4 Col5 Col6
Fila1  323   232  332  424  535   66
Fila2  323  None   55  636  707  898
Fila3  389   584  155   66  632  584
Fila4  856   324  521   74  365  817

Shape: (4, 6)
Filas: 4
Columnas: 6
Celdas: 24

Tipos:
 Col1    object
Col2    object
Col3    object
Col4    object
Col5    object
Col6    object
dtype: object


In [46]:
# ESTADÍSTICAS
print("\nESTADÍSTICAS")
print(df.describe()) # info estadística de las columnas

print("\nMedia")
print(df.mean()) # media de las columnas

print("\nMediana")
print(df.median()) # mediana de las columnas

print("\nValores no nulos")
print(df.count()) # cuenta los valores no nulos del df col c col

print("\nValores máximos")
print(df.max()) # devuelve el valor máximo de cada columna

print("\nValores mínimos")
print(df.min()) # devuelve el valor mínimo de cada columna

print("\nDesvío standard")
print(df.std()) # desvío estandard


ESTADÍSTICAS
        Col1  Col2  Col3  Col4  Col5  Col6
count      4     3     4     4     4     4
unique     3     3     4     4     4     4
top      323   232   521   424   632   584
freq       2     1     1     1     1     1

Media
Col1    472.75
Col2    380.00
Col3    265.75
Col4    300.00
Col5    559.75
Col6    591.25
dtype: float64

Mediana
Col1    356.0
Col2    324.0
Col3    243.5
Col4    249.0
Col5    583.5
Col6    700.5
dtype: float64

Valores no nulos
Col1    4
Col2    3
Col3    4
Col4    4
Col5    4
Col6    4
dtype: int64

Valores máximos
Col1    856
Col2    584
Col3    521
Col4    636
Col5    707
Col6    898
dtype: object

Valores mínimos
Col1    323
Col2    232
Col3     55
Col4     66
Col5    365
Col6     66
dtype: object

Desvío standard
Col1    257.387354
Col2    182.559579
Col3    205.120087
Col4    279.346857
Col5    147.696479
Col6    374.610353
dtype: float64


In [55]:
# ACCESANDO FILAS/COLUMNAS
print("\nPrimera columna")
print(df['Col1']) # si no tienen nombre, va x índice, inicia en [0]

print("\nColumnas 0 , 1 y 5")
print(df[['Col1','Col2','Col6']]) # en una lista

print("\nFila 1")
print(df.loc['Fila1']) # loc recupera valores por nombre de fila

print("\nFila 1")
print(df.iloc[0]) # por índice de fila

print("\nMatriz con los valores")
print(df.values)

print("\nLos índices (o nombres de filas)")
print(df.index)

print("\nLas columnas")
print(df.columns)


Primera columna
Fila1    323
Fila2    323
Fila3    389
Fila4    856
Name: Col1, dtype: object

Columnas 0 , 1 y 5
      Col1  Col2 Col6
Fila1  323   232   66
Fila2  323  None  898
Fila3  389   584  584
Fila4  856   324  817

Fila 1
Col1    323
Col2    232
Col3    332
Col4    424
Col5    535
Col6     66
Name: Fila1, dtype: object

Fila 1
Col1    323
Col2    232
Col3    332
Col4    424
Col5    535
Col6     66
Name: Fila1, dtype: object

Matriz con los valores
[[323 232 332 424 535 66]
 [323 None 55 636 707 898]
 [389 584 155 66 632 584]
 [856 324 521 74 365 817]]

Los índices (o nombres de filas)
Index(['Fila1', 'Fila2', 'Fila3', 'Fila4'], dtype='object')

Las columnas
Index(['Col1', 'Col2', 'Col3', 'Col4', 'Col5', 'Col6'], dtype='object')


<a style='text-decoration:none;line-height:16px;display:flex;color:#5B5B62;padding:10px;justify-content:end;' href='https://deepnote.com?utm_source=created-in-deepnote-cell&projectId=ea4cb36d-3d6c-4b97-8215-9ec3262711eb' target="_blank">
 </img>
Created in <span style='font-weight:600;margin-left:4px;'>Deepnote</span></a>