<a href="https://colab.research.google.com/github/Manudevz/Fullstackopen-repo-submission/blob/main/Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## ¿Qué es Pandas y para que sirve?

Pandas es una biblioteca de Python que se utiliza para el análisis y la manipulación de datos en bruto. Es una herramienta poderosa que puede ayudar a los usuarios a limpiar, transformar y analizar datos de una manera rápida y eficiente.

La estructura de datos principal en Pandas se llama DataFrame. Es una tabla de datos bidimensional que se compone de filas y columnas, y se asemeja a una hoja de cálculo de Excel. Los DataFrames son útiles para almacenar y manipular grandes cantidades de datos y proporcionan una gran cantidad de funcionalidades, como la selección y filtrado de datos, la agregación de datos y la realización de operaciones matemáticas y estadísticas.



## Poniendo a punto Pandas


**1.** Importamos  pandas con el alias `pd`.

In [None]:
import pandas as pd

**2.** Mostramos la version de pandas que importamos.

In [None]:
pd.__version__

'1.5.3'

**3.** Imaginemos que tenemos el siguiente diccionario `data` y la lista `labels`:

``` python
data = {'animal': ['cat', 'cat', 'snake', 'dog', 'dog', 'cat', 'snake', 'cat', 'dog', 'dog'],
        'age': [2.5, 3, 0.5, None, 5, 2, 4.5, None, 7, 3],
        'visits': [1, 3, 2, 3, 2, 3, 1, 1, 2, 1],
        'priority': ['yes', 'yes', 'no', 'yes', 'no', 'no', 'no', 'yes', 'no', 'no']}

labels = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j']
```

Vamos a crear un DataFrame `df` a partir del diccionario `data` usando  `labels` como índice.

In [None]:

data = {'animal': ['cat', 'cat', 'snake', 'dog', 'dog', 'cat', 'snake', 'cat', 'dog', 'dog'],
        'age': [2.5, 3, 0.5, None, 5, 2, 4.5, None, 7, 3],
        'visits': [1, 3, 2, 3, 2, 3, 1, 1, 2, 1],
        'priority': ['yes', 'yes', 'no', 'yes', 'no', 'no', 'no', 'yes', 'no', 'no']}

labels = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j']

df = pd.DataFrame(data, index=labels)
df # Esto lo ponemos para mostrarlo

Unnamed: 0,animal,age,visits,priority
a,cat,2.5,1,yes
b,cat,3.0,3,yes
c,snake,0.5,2,no
d,dog,,3,yes
e,dog,5.0,2,no
f,cat,2.0,3,no
g,snake,4.5,1,no
h,cat,,1,yes
i,dog,7.0,2,no
j,dog,3.0,1,no



**4.** Mostramos informacion que resuma al DataFrame

`df.info()` nos devuelve informacion sobre el DataFrame incluidos sus índices y columnas, valores no nulos y uso de memoria

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 10 entries, a to j
Data columns (total 4 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   animal    10 non-null     object 
 1   age       8 non-null      float64
 2   visits    10 non-null     int64  
 3   priority  10 non-null     object 
dtypes: float64(1), int64(1), object(2)
memory usage: 700.0+ bytes


Otra forma de obtener algun tipo de informacion del DataFrame es utilizando la funcion `describe` la cual devuelve una serie con un resumen descriptivo que incluye el número de datos, su suma, el mínimo, el máximo, la media, la desviación típica y los cuartile

In [None]:
df.describe() # Otra forma

Unnamed: 0,age,visits
count,8.0,10.0
mean,3.4375,1.9
std,2.007797,0.875595
min,0.5,1.0
25%,2.375,1.0
50%,3.0,2.0
75%,4.625,2.75
max,7.0,3.0


**5.** `df.head(n)` Devuelve las primeras `n` filas del DataFrame `df`
En el caso de no especificarlo, nos devuelve las primeras 5. Mostramos las primeras 3 filas del DataFrame `df`.

In [None]:
df.head(3)

Unnamed: 0,animal,age,visits,priority
a,cat,2.5,1,yes
b,cat,3.0,3,yes
c,snake,0.5,2,no


In [None]:
# Otra forma
df.iloc[:3]


Unnamed: 0,animal,age,visits,priority
a,cat,2.5,1,yes
b,cat,3.0,3,yes
c,snake,0.5,2,no


**6.** Si queremos solamente mostrar las columnas 'animal' y 'age' columns del  DataFrame `df`.

Vamos autilizar
`df.loc[filas, columnas]` lo que devuelve un DataFrame con los elementos de las filas de la lista `filas` y las columnas de la lista `columnas`. Si queremos que muestre todas las columnas podemos poner `:` en su lugar.

In [None]:
df.loc[:, ['animal', 'age']]



Unnamed: 0,animal,age
a,cat,2.5
b,cat,3.0
c,snake,0.5
d,dog,
e,dog,5.0
f,cat,2.0
g,snake,4.5
h,cat,
i,dog,7.0
j,dog,3.0


Otra manera puede ser mediante el uso de doble corchete. En este caso no especificamos la cantidad de filas entonces nos muestra todas por defecto.

In [None]:
# Otra manera

df[['animal', 'age']]

Unnamed: 0,animal,age
a,cat,2.5
b,cat,3.0
c,snake,0.5
d,dog,
e,dog,5.0
f,cat,2.0
g,snake,4.5
h,cat,
i,dog,7.0
j,dog,3.0


**7.** Ahora seleccionemos las filas`[3, 4, 8]` *y* columnas `['animal', 'age']`.

In [None]:
df.loc[df.index[[3, 4, 8]], ['animal', 'age']]

Unnamed: 0,animal,age
d,dog,
e,dog,5.0
i,dog,7.0


**8.** Para filtrar los elementos de nuestra tabla lo que hacemos es poner una condición adentro de los corchetes. Por ejemplo, podemos seleccionar solamente las filas que tengan numero de visitas mayores que 3.

In [None]:
df[df['visits'] > 3] #No hay ninguno ja

Unnamed: 0,animal,age,visits,priority


**9.** Seleccionamos las filas que le falten los datos de la edad, es decir que su valor sea `NaN`. En este caso la función `isnull()` se usa como condición que devuelve `True` si el valor de la columna es nulo o NaN.

In [None]:
df[df['age'].isnull()]

Unnamed: 0,animal,age,visits,priority
d,dog,,3,yes
h,cat,,1,yes


**10.** Podemos poner condiciones más complejas adentro de los corchetes. Seleccionamos las filas donde el animal sea cat *y* la edad es menor a 3.

In [None]:
df[(df['animal'] == 'cat') & (df['age'] < 3)]

Unnamed: 0,animal,age,visits,priority
a,cat,2.5,1,yes
f,cat,2.0,3,no


**11.** La función `between(a, b)` elige los elementos que se encuentren en el rango \[a,b\]. Sería el equivalente de hacer `columna >= a & columna <= b`. Seleccionamos las filas con edad entre 2 y 4 (inclusive).

In [None]:
df[df['age'].between(2, 4)]

Unnamed: 0,animal,age,visits,priority
a,cat,2.5,1,yes
b,cat,3.0,3,yes
f,cat,2.0,3,no
j,dog,3.0,1,no


**14.** Si queremos cambiar el valor de celdas específicas usamos el `=` como si fuera una variable normal. Cambiemos la edad en la fila 'f' a 1.5.

In [None]:
df.loc['f', 'age'] = 1.5

**15.**  La función `sum()` suma todos los valores de la columna seleccionada. Sumemos la cantidad de visitas de todas las filas de `df` (numero total de visitas).

In [None]:
df['visits'].sum()

19

**16.** Calculemos la media de las edades de los animales de `df`. En este caso `groupby` agrupa las filas según el animal y con la función `mean` se calcula el promedio de la edad.

In [None]:
df.groupby('animal')['age'].mean()

animal
cat      2.333333
dog      5.000000
snake    2.500000
Name: age, dtype: float64

**17.**  Agregemos una nueva fila 'k' a `df` con valos que querramos para cada columna.

In [None]:
df.loc['k'] = ['dog', 5.5, 2, 'no']
df

Unnamed: 0,animal,age,visits,priority
a,cat,2.5,1,yes
b,cat,3.0,3,yes
c,snake,0.5,2,no
d,dog,,3,yes
e,dog,5.0,2,no
f,cat,1.5,3,no
g,snake,4.5,1,no
h,cat,,1,yes
i,dog,7.0,2,no
j,dog,3.0,1,no


Ahora borremos la columna nueva para volver a tener el Dataframe original. La función `drop` recibe el índice de la fila que se desea eliminar.

In [None]:
df = df.drop('k')
df

Unnamed: 0,animal,age,visits,priority
a,cat,2.5,1,yes
b,cat,3.0,3,yes
c,snake,0.5,2,no
d,dog,,3,yes
e,dog,5.0,2,no
f,cat,1.5,3,no
g,snake,4.5,1,no
h,cat,,1,yes
i,dog,7.0,2,no
j,dog,3.0,1,no


**18.** La función `value_counts()` devuelve cuantas veces aparece cada valor único para una columna específica. Contemos que cantidad de animales hay en el `df`.

In [None]:
df['animal'].value_counts()

cat      4
dog      4
snake    2
Name: animal, dtype: int64

**19.** La función `sort_values(by, ascending)` ordena la tabla con el criterio que pidamos. En el parámetro `by` ponemos una lista con las columnas que queremos usar para ordenar y en `ascending` ponemos una lista de booleanos donde indicamos si queremos que el ordenamiento de la lista anterior sea ascendente o no. Entonces, ordenemos el  `df`  primero a partir de los valores de edad 'age' en orden *descendente* , luego por el valor de las visitas 'visits' en orden *ascendente*  (la fila `i` deberia estar primero y la  `d` should be ultima).

In [None]:
df.sort_values(by=['age', 'visits'], ascending=[False, True])

Unnamed: 0,animal,age,visits,priority
i,dog,7.0,2,no
e,dog,5.0,2,no
g,snake,4.5,1,no
j,dog,3.0,1,no
b,cat,3.0,3,yes
a,cat,2.5,1,yes
f,cat,1.5,3,no
c,snake,0.5,2,no
h,cat,,1,yes
d,dog,,3,yes


**20.** Con `map` podemos transformar los valores de columna entera, le pasamos un diccionario con elementos del tipo `{valor_viejo: valor_nuevo}`. La columna 'priority' contiene valores 'yes' y 'no'. Vamos a reemplazarlos por: 'yes' como `True` y 'no' como `False`.

In [None]:
df['priority'] = df['priority'].map({'yes': True, 'no': False})
df

Unnamed: 0,animal,age,visits,priority
a,cat,2.5,1,True
b,cat,3.0,3,True
c,snake,0.5,2,False
d,dog,,3,True
e,dog,5.0,2,False
f,cat,1.5,3,False
g,snake,4.5,1,False
h,cat,,1,True
i,dog,7.0,2,False
j,dog,3.0,1,False


**21.** En la columna 'animal' cambiemos 'snake' por 'python'. Podemos usar `map` como antes o podemos usar `replace` que recibe primero el valor viejo y después el valor nuevo realizará el reemplazo.

In [None]:
df['animal'] = df['animal'].replace('snake', 'python')
df

Unnamed: 0,animal,age,visits,priority
a,cat,2.5,1,True
b,cat,3.0,3,True
c,python,0.5,2,False
d,dog,,3,True
e,dog,5.0,2,False
f,cat,1.5,3,False
g,python,4.5,1,False
h,cat,,1,True
i,dog,7.0,2,False
j,dog,3.0,1,False
