<a href="https://colab.research.google.com/github/PabloDiosquez/AlgYProg/blob/main/Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**¿Qué es Pandas y para qué sirve?**

Pandas es una biblioteca de Python que se utiliza para el análisis y la manipulación de datos en bruto. Es una herramienta poderosa que puede ayudar a los usuarios a limpiar, transformar y analizar datos de manera rápida y eficiente.

La estructura principal en Pandas se llama DataFrame. Es una tabla de datos bidimensional que se compone de filas y columnas, y se asemeja a una hoja de cálculo de Excel. Los DataFrames son útiles para almacenar y manipular grandes cantidades de datos y proporcionan una gran cantidad de funcionalidades, como la selección y el filtrado de datos, el agregado de datos y la realización de operaciones matemáticas y estadísticas.

**Poniendo a punto Pandas**

1. Importamos pandas con el alias pd



```
import pandas as pd
```



In [1]:
import pandas as pd

2. Mostramos la versión de pandas que importamos.

In [2]:
pd.__version__

'1.5.3'

3. Imaginemos que tenemos el siguiente diccionario `data` y la lista `labels`:

In [5]:
data = {'animal': ['cat', 'cat', 'snake', 'dog', 'dog', 'cat', 'snake', 'cat', 'dog', 'dog'],
        'age': [2.5, 3, 0.5, None, 5, 2, 4.5, None, 5, 3],
        'visits': [1, 3, 2, 3, 2, 3, 1, 1, 2, 1],
        'priority': ['yes', 'yes', 'no', 'yes', 'no', 'no', 'no', 'yes', 'no', 'no'],}

labels = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j']

Vamos a crear un DataFrame `df` a partir del diccionario `data` usando `labels` como índice.




In [9]:
df = pd.DataFrame(data, index=labels)
df # Esto lo ponemos para mostrarlo

Unnamed: 0,animal,age,visits,priority
a,cat,2.5,1,yes
b,cat,3.0,3,yes
c,snake,0.5,2,no
d,dog,,3,yes
e,dog,5.0,2,no
f,cat,2.0,3,no
g,snake,4.5,1,no
h,cat,,1,yes
i,dog,5.0,2,no
j,dog,3.0,1,no


4. Mostramos información que resuma al DataFrame.

`df.info()` nos devuelve información sobre el DataFrame incluidos sus índices y columnas, valores no nulos y uso de memoria.

In [10]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 10 entries, a to j
Data columns (total 4 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   animal    10 non-null     object 
 1   age       8 non-null      float64
 2   visits    10 non-null     int64  
 3   priority  10 non-null     object 
dtypes: float64(1), int64(1), object(2)
memory usage: 700.0+ bytes


Otra forma de obtener algún tipo de información del DataFrame es utilizando la función `describe()` la cual devuelve una serie con un resumen descriptivo que incluye el número de datos, su suma, el mínimo, el máximo, la media, la desviación típica y los cuartiles.

In [11]:
df.describe()

Unnamed: 0,age,visits
count,8.0,10.0
mean,3.1875,1.9
std,1.579726,0.875595
min,0.5,1.0
25%,2.375,1.0
50%,3.0,2.0
75%,4.625,2.75
max,5.0,3.0


5. `df.head()` devuelve las primeras *n* filas del DataFrame `df`, En el caso de no especificarlo, nos devuelve las primeras *5*.

 Mostramos las primeras *3* filas del DataFrame `df`.

In [12]:
df.head(3)

Unnamed: 0,animal,age,visits,priority
a,cat,2.5,1,yes
b,cat,3.0,3,yes
c,snake,0.5,2,no


In [13]:
# Otra forma
df.iloc[:3]

Unnamed: 0,animal,age,visits,priority
a,cat,2.5,1,yes
b,cat,3.0,3,yes
c,snake,0.5,2,no


6. Si queremos solamente mostrar las columnas *'animal'* y *'age'* columna del DataFrame `df`.

Vamos a utilizar `df.loc[filas, columnas]` lo que devuelve un DataFrame con los elementos de las filas de la lista `filas` y las columnas de la lista `columnas`. Si queremos que muestre todas las columnas podemos poner `:` en su lugar.

In [19]:
df.loc[:, ['animal', 'age']]

Unnamed: 0,animal,age
a,cat,2.5
b,cat,3.0
c,snake,0.5
d,dog,
e,dog,5.0
f,cat,2.0
g,snake,4.5
h,cat,
i,dog,5.0
j,dog,3.0


Otra manera puede ser mediante el uso del doble corchete. En este caso, no especificamos la cantidad de filas, por lo que nos muestra todas por defecto.

In [21]:
df[['animal', 'age', 'visits']]

Unnamed: 0,animal,age,visits
a,cat,2.5,1
b,cat,3.0,3
c,snake,0.5,2
d,dog,,3
e,dog,5.0,2
f,cat,2.0,3
g,snake,4.5,1
h,cat,,1
i,dog,5.0,2
j,dog,3.0,1


7. Ahora seleccionamos las filas `[4,6,1]` y las columnas `['animal', 'age']`

In [25]:
df.loc[df.index[[4,6,1]], ['animal', 'age']]

Unnamed: 0,animal,age
e,dog,5.0
g,snake,4.5
b,cat,3.0


8. Para filtrar los elementos de nuestra tabla lo que hacemos es poner una condición adentro de los corchetes. Por ejemplo, podemos seleccionar solamente las filas que tengan un número de visitas mayores a 2.

In [26]:
df[df['visits'] > 2]

Unnamed: 0,animal,age,visits,priority
b,cat,3.0,3,yes
d,dog,,3,yes
f,cat,2.0,3,no


9. Seleccionamos las filas que le falten los datos de la edad, es decir, que su valor sea `NaN`. En este caso, la función `isnull()` se usa como condición que devuelve `True` si el valor de la columna es nulo o `NaN`.

In [33]:
df[df['age'].isnull()]

Unnamed: 0,animal,age,visits,priority
d,dog,,3,yes
h,cat,,1,yes


10. Podemos poner condiciones más complejas adentro de los corchetes. Seleccionamos las filas donde el animal sea *'cat'* y la edad sea menor a *3*.

In [31]:
df[(df['animal'] == 'cat') & (df['age'] < 3)]

Unnamed: 0,animal,age,visits,priority
a,cat,2.5,1,yes
f,cat,2.0,3,no


11. La función `between(a, b)` elige los elementos que se encuentran en el rango [a,b]. Sería equivalente a `columna >= a & columna <= b`. Seleccionamos las filas con la edad entre 2 y 4 (inclusive).  

In [35]:
df[df['age'].between(2, 4)]

Unnamed: 0,animal,age,visits,priority
a,cat,2.5,1,yes
b,cat,3.0,3,yes
f,cat,2.0,3,no
j,dog,3.0,1,no


12. Si queremos cambiar el valor de celdas específicas usamos el `=` como si fuera una variable normal. Cambiemos la edad en la fila *f* a *1.5*.

In [36]:
df.loc[['f'], 'age'] = 1.5