<center><img src="/work/img/pandas.png"></center>


<h1>PanDas (PANel DAta)</h1>
<p><em><b>Documentación pandas:</b> <a href="https://pandas.pydata.org/docs/">https://pandas.pydata.org/docs/</a></em></p>
<p>Es una librería de Python que proporciona herramientas de análisis y manipulación de datos de alto rendimiento, utilizando potentes estructuras de datos.</p>
<p>Esta librería permite trabajar las 5 etapas del procesamiento y análisis de datos, independientemente de su origen: cargar, preparar, manipular, modelar y analizar.</p>
<center><img src="/work/img/procesos.png"></center>
<p>PanDas nos permite crear distintos dataframes.</p>

<h2>Dataframes</h2>
<p>Un dataframe es una estructura bi-dimensional de datos etiquetados, con columnas de tipos potencialmente diferentes. En palabras simples: una tabla.</p>

<p>Los PanDas dataframes constan de tres componentes principales:</p>
<ul>
<li>los datos</li>
<li>el índice</li>
<li>las columnas</li>
</ul>
<p>Cuando un dataframe es de una sola dimensión, se lo llama <b>serie</b>.<p>
<p>A los nombres de filas y columnas también se los llama <b>labels</b>.</p>

<center><img src="/work/img/df1.png"></center>

<h4>Comparación entre serie de PanDas y array de 1 dimensión de NumPy</h4>
<center><img src="/work/img/df2.png"></center>
<h4>Comparación entre dataframe de PanDas y array de 2 dimensiones de NumPy</h4>
<center><img src="/work/img/df3.png"></center>


<h2>Instalación</h2>
<p>Al igual que NumPy, necesitamos instalar PanDas para trabajar fuera de notebooks, para después poder importarlo a nuestros proyectos.</p>
<p>Recordá trabajar dentro de un entorno virtual antes de instalar nuevos paquetes.</p>
<p>Desde la terminal del SO ejecutamos:</p>
<center><img src="/work/img/instalar.png"></center>

In [None]:
# NO SE OLVIDEN DE EJECUTAR ESTE CUADRO!!!
# IMPORTAMOS LA LIBRERÍA PARA NUESTRO PRIMER PROYECTO
import pandas as pd
# ES USUAL TRABAJAR CON LAS LIBRERÍAS PANDAS Y NUMPY EN SIMULTÁNEO
import numpy as np

## Importando sets de datos

In [None]:
# Para importar archivos de extensión .xlsx
# método pd.read_excel('nombre_archivo.xlsx')

# Para importar archivos de extensión .csv
# método pd.read_csv('nombre_archivo.csv')

<h2>Creando estructuras de datos</h2>
<p>Vamos a crear la siguiente estructura:
<center><img src="/work/img/df.png"></center>

In [None]:
# CREANDO UN DATAFRAME DESDE CERO
# Paso 1. Creamos un arreglo NumPy
arr = np.array([['','Col1','Col2'],['Fila1', 11, 22],['Fila2', 33, 44]])
print(arr)

[['' 'Col1' 'Col2']
 ['Fila1' '11' '22']
 ['Fila2' '33' '44']]


In [None]:
# Paso 2. Lo convertimos a dataframe, especificando los tres componentes que nombramos: datos, índices y columnas
df = pd.DataFrame(data = arr[1:,1:], index = arr[1:,0], columns = arr[0,1:])
print(df)

      Col1 Col2
Fila1   11   22
Fila2   33   44


In [None]:
# Otro ejemplo:
datos = np.array([['','Nombre','Apellido','DNI'],['Administrador','Armando','Gómez',23561452],['Ayudante','Raúl','Martínez',42541452],['Visitante','Josefina','Álvarez',36541256]])
df2 = pd.DataFrame(data = datos[1:,1:], index = datos[1:,0], columns = datos[0,1:])
print(df2)

                 Nombre  Apellido       DNI
Administrador   Armando     Gómez  23561452
Ayudante           Raúl  Martínez  42541452
Visitante      Josefina   Álvarez  36541256


In [None]:
# Una vez que practicamos suficiente, podemos hacerlo en un solo paso
df3=pd.DataFrame(np.array([[100,200,300],[4,5,6]]))
print(df3)

     0    1    2
0  100  200  300
1    4    5    6


In [None]:
# Creando una serie Pandas (en un paso)
serie = pd.Series(np.array([145,23,12,45,12,56,45]))
print(serie)

0    145
1     23
2     12
3     45
4     12
5     56
6     45
dtype: int64


## Extrayendo información de los dataframes

In [None]:
#INFORMACIÓN DE LOS DATAFRAMES
data2 = np.array([['','Col1','Col2','Col3','Col4','Col5','Col6'],['Fila1',111,232,332,424,535,66],['Fila2',323,None,55,636,707,898], ['Fila3',389,584,155,66,632,584],['Fila4',856,324,521,74,365,817]])
df = pd.DataFrame(data=data2[1:,1:], index=data2[1:,0], columns=data2[0,1:])
print(df)
print()
print(df.shape)
print('Cant filas', len(df.index))
print('Cant cols', len(df.columns))


      Col1  Col2 Col3 Col4 Col5 Col6
Fila1  111   232  332  424  535   66
Fila2  323  None   55  636  707  898
Fila3  389   584  155   66  632  584
Fila4  856   324  521   74  365  817

(4, 6)
Cant filas 4
Cant cols 6


In [None]:
# ESTADÍSTICAS
print(df.describe())
print()
print(df.mean()) # promedio o media
print()
print(df.median()) # mediana
print()
print(df.count()) # valores no nulos
print()
print(df.max())
print()
print(df.min())
print()
print(df.std()) # desvío standard
print()
print("Máximo de la Col4", df['Col4'].max())

        Col1  Col2  Col3  Col4  Col5  Col6
count      4     3     4     4     4     4
unique     4     3     4     4     4     4
top      856   232   521   424   632   584
freq       1     1     1     1     1     1

Col1    419.75
Col2    380.00
Col3    265.75
Col4    300.00
Col5    559.75
Col6    591.25
dtype: float64

Col1    356.0
Col2    324.0
Col3    243.5
Col4    249.0
Col5    583.5
Col6    700.5
dtype: float64

Col1    4
Col2    3
Col3    4
Col4    4
Col5    4
Col6    4
dtype: int64

Col1    856
Col2    584
Col3    521
Col4    636
Col5    707
Col6    898
dtype: object

Col1    111
Col2    232
Col3     55
Col4     66
Col5    365
Col6     66
dtype: object

Col1    314.084251
Col2    182.559579
Col3    205.120087
Col4    279.346857
Col5    147.696479
Col6    374.610353
dtype: float64
Máximo de la Col4 636


In [None]:
# ACCESANDO FILAS/COLUMNAS
print(df['Col2'])
print()
print(df[['Col4','Col1']]) # trae las columnas 4 y 1 OJOOOOOO doble corchete

Fila1     232
Fila2    None
Fila3     584
Fila4     324
Name: Col2, dtype: object

      Col4 Col1
Fila1  424  111
Fila2  636  323
Fila3   66  389
Fila4   74  856


In [None]:
print(df.loc['Fila2']) # trae contenido fila 2
print(df.iloc[1]) 

Col1     323
Col2    None
Col3      55
Col4     636
Col5     707
Col6     898
Name: Fila2, dtype: object
Col1     323
Col2    None
Col3      55
Col4     636
Col5     707
Col6     898
Name: Fila2, dtype: object


In [None]:
# matriz de datos
print(df.values)
print()
# indices
print(df.index)
# columnas
print(df.columns)

[[111 232 332 424 535 66]
 [323 None 55 636 707 898]
 [389 584 155 66 632 584]
 [856 324 521 74 365 817]]

Index(['Fila1', 'Fila2', 'Fila3', 'Fila4'], dtype='object')
Index(['Col1', 'Col2', 'Col3', 'Col4', 'Col5', 'Col6'], dtype='object')


<a style='text-decoration:none;line-height:16px;display:flex;color:#5B5B62;padding:10px;justify-content:end;' href='https://deepnote.com?utm_source=created-in-deepnote-cell&projectId=657ca745-6eb9-4c68-96b5-44f61400fd46' target="_blank">
 </img>
Created in <span style='font-weight:600;margin-left:4px;'>Deepnote</span></a>