<a href="https://colab.research.google.com/github/magotronico/DataAnalysis_and_AI/blob/main/data_science_practice/100_ejercicios_Pandas_parte1a.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 100 ejercicios pandas

Dado que Pandas es una biblioteca grande con muchas funciones y características especializadas, estos ejercicios se centran principalmente en los fundamentos de la manipulación de datos (indexación, agrupación, agregación, limpieza), haciendo uso de los objetos principales DataFrame y Series.

Muchos de los ejercicios aquí son sencillos en el sentido de que las soluciones requieren no más de unas pocas líneas de código (en Pandas o NumPy... ¡no uses Python puro o Cython!). Elegir los métodos correctos y seguir las mejores prácticas es el objetivo subyacente.

Los ejercicios están divididos en secciones de manera general. Cada sección tiene una calificación de dificultad; estas calificaciones son subjetivas, por supuesto, pero deben verse como una guía aproximada de cuán ingeniosa debe ser la solución requerida.

Si estas interesado en continuar preparandote en Pandas, estos recursos pueden ser de utilidad:

- [10 minutes to pandas](http://pandas.pydata.org/pandas-docs/stable/10min.html)
- [pandas basics](http://pandas.pydata.org/pandas-docs/stable/basics.html)
- [tutorials](http://pandas.pydata.org/pandas-docs/stable/tutorials.html)
- [cookbook and idioms](http://pandas.pydata.org/pandas-docs/stable/cookbook.html#cookbook)


## Basicos de DataFrame

### Algunos elementos basicos de rutinas para seleccionar, ordenar, agregar datos en DataFrames

Dificultad: *facil*

Nota: recuerda importar pandas ademas numpy usando:
```python
import pandas as pd
import numpy as np
```

Considera el siguiente diccionario Python `data` y lista Python `labels`:

``` python
data = {'animal': ['cat', 'cat', 'snake', 'dog', 'dog', 'cat', 'snake', 'cat', 'dog', 'dog'],
        'age': [2.5, 3, 0.5, np.nan, 5, 2, 4.5, np.nan, 7, 3],
        'visits': [1, 3, 2, 3, 2, 3, 1, 1, 2, 1],
        'priority': ['yes', 'yes', 'no', 'yes', 'no', 'no', 'no', 'yes', 'no', 'no']}

labels = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j']
```
(Son datos ficticios sobre animales y sus visitas al veterinario)

**1.** Crea un DataFrame `df` con el diccionario `data` el cual usa como indices `labels`.

In [116]:
import pandas as pd
import numpy as np

data = {'animal': ['cat', 'cat', 'snake', 'dog', 'dog', 'cat', 'snake', 'cat', 'dog', 'dog'],
        'age': [2.5, 3, 0.5, np.nan, 5, 2, 4.5, np.nan, 7, 3],
        'visits': [1, 3, 2, 3, 2, 3, 1, 1, 2, 1],
        'priority': ['yes', 'yes', 'no', 'yes', 'no', 'no', 'no', 'yes', 'no', 'no']}

labels = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j']

df = pd.DataFrame(data, index=labels)
df

Unnamed: 0,animal,age,visits,priority
a,cat,2.5,1,yes
b,cat,3.0,3,yes
c,snake,0.5,2,no
d,dog,,3,yes
e,dog,5.0,2,no
f,cat,2.0,3,no
g,snake,4.5,1,no
h,cat,,1,yes
i,dog,7.0,2,no
j,dog,3.0,1,no


**2.** Muestra un resumen de la información básica sobre este DataFrame y sus datos (*pista: hay un solo método que se puede llamar en el DataFrame*).

In [117]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 10 entries, a to j
Data columns (total 4 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   animal    10 non-null     object 
 1   age       8 non-null      float64
 2   visits    10 non-null     int64  
 3   priority  10 non-null     object 
dtypes: float64(1), int64(1), object(2)
memory usage: 400.0+ bytes


**3.** Devuelve las primeras 3 filas del DataFrame `df`.

In [118]:
df.head(3)

Unnamed: 0,animal,age,visits,priority
a,cat,2.5,1,yes
b,cat,3.0,3,yes
c,snake,0.5,2,no


**4.** Selecciona solo las columnas 'animal' y 'age' del DataFrame `df`.

In [119]:
df.iloc[:2]
df.loc[:, ['animal', 'age']]

Unnamed: 0,animal,age
a,cat,2.5
b,cat,3.0
c,snake,0.5
d,dog,
e,dog,5.0
f,cat,2.0
g,snake,4.5
h,cat,
i,dog,7.0
j,dog,3.0


**5.** Selecciona los datos en las filas `[3, 4, 8]` *y* en las columnas `['animal', 'age']`.

In [120]:
df.iloc[[3, 4, 8], :2]
df.loc[df.index[[3, 4, 8]], ['animal', 'age']]

Unnamed: 0,animal,age
d,dog,
e,dog,5.0
i,dog,7.0


**6.** Selecciona solo las filas donde el numero de visitas es mayor a 3.

In [121]:
df.loc[df['visits'] > 3]

Unnamed: 0,animal,age,visits,priority


**7.** Selecciona las filas donde la edad esta ausente, es decir, es `NaN`.

In [122]:
df.loc[df['age'].isnull()]

Unnamed: 0,animal,age,visits,priority
d,dog,,3,yes
h,cat,,1,yes


**8.** Selecciona filas en donde el animal sea cat *y* age sea menor a 3.

In [123]:
df.loc[(df['animal'] == 'cat') & (df['age'] < 3)]

Unnamed: 0,animal,age,visits,priority
a,cat,2.5,1,yes
f,cat,2.0,3,no


**9.** Selecciona las filas donde age se encuentre entre 2 y 4 (inclusivos).

In [124]:
df.loc[(df['age'] >= 2) & (df['age'] <=4)]
df[df['age'].between(2,4)] # Another way, 2 and 4 are included

Unnamed: 0,animal,age,visits,priority
a,cat,2.5,1,yes
b,cat,3.0,3,yes
f,cat,2.0,3,no
j,dog,3.0,1,no


**10.** Cambia la edad (age) en la fila 'f' a 1.5.

In [125]:
df['age']['f'] = 1.5
df.loc['f', 'age'] = 1.5 # Another way
df

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['age']['f'] = 1.5


Unnamed: 0,animal,age,visits,priority
a,cat,2.5,1,yes
b,cat,3.0,3,yes
c,snake,0.5,2,no
d,dog,,3,yes
e,dog,5.0,2,no
f,cat,1.5,3,no
g,snake,4.5,1,no
h,cat,,1,yes
i,dog,7.0,2,no
j,dog,3.0,1,no


**11.** Calcula la suma de todas las visitas de `df`.

In [126]:
sum_visits = df['visits'].sum()
sum_visits = df.loc[:, 'visits'].sum() # Another way
sum_visits

19

**12.** Calcula la media de age para cada diferente animal en `df`.

In [127]:
df.groupby('animal')['age'].mean()

Unnamed: 0_level_0,age
animal,Unnamed: 1_level_1
cat,2.333333
dog,5.0
snake,2.5


**13.** Agrega una nueva fila 'k' a `df` con los valores de tu eleccion para cada columna. Luego elimina tal fila para regresar al DataFrame original.

In [128]:
df.loc['k'] = ['dog', 4, 2, 'no']
df

df = df.drop('k')
df


Unnamed: 0,animal,age,visits,priority
a,cat,2.5,1,yes
b,cat,3.0,3,yes
c,snake,0.5,2,no
d,dog,,3,yes
e,dog,5.0,2,no
f,cat,1.5,3,no
g,snake,4.5,1,no
h,cat,,1,yes
i,dog,7.0,2,no
j,dog,3.0,1,no


**14.** Haz el conteo de cada tipo de animal en `df`.

In [129]:
df['animal'].value_counts()

Unnamed: 0_level_0,count
animal,Unnamed: 1_level_1
cat,4
dog,4
snake,2


**15.** Ordena `df` primero por los valores de 'age' en orden *descendente*, luego por el valor de 'visits' en orden *ascendente* (asi la fila `i` seria la primera y la fila `d` seria la ultima).

In [130]:
df.sort_values(by=['age', 'visits'], ascending=[False, True])

Unnamed: 0,animal,age,visits,priority
i,dog,7.0,2,no
e,dog,5.0,2,no
g,snake,4.5,1,no
j,dog,3.0,1,no
b,cat,3.0,3,yes
a,cat,2.5,1,yes
f,cat,1.5,3,no
c,snake,0.5,2,no
h,cat,,1,yes
d,dog,,3,yes


**16.** La columna 'priority' contiene valores 'yes' y 'no'. Reemplazalos por valores booleanos: 'yes' debe ser `True` y 'no' debe ser `False`.

In [131]:
df['priority'] = df['priority'].map({'yes': True, 'no': False})
df

Unnamed: 0,animal,age,visits,priority
a,cat,2.5,1,True
b,cat,3.0,3,True
c,snake,0.5,2,False
d,dog,,3,True
e,dog,5.0,2,False
f,cat,1.5,3,False
g,snake,4.5,1,False
h,cat,,1,True
i,dog,7.0,2,False
j,dog,3.0,1,False


**17.** En la columna 'animal', cambia 'snake' por 'python'.

In [132]:
df['animal'] = df['animal'].replace('snake', 'python')
df

Unnamed: 0,animal,age,visits,priority
a,cat,2.5,1,True
b,cat,3.0,3,True
c,python,0.5,2,False
d,dog,,3,True
e,dog,5.0,2,False
f,cat,1.5,3,False
g,python,4.5,1,False
h,cat,,1,True
i,dog,7.0,2,False
j,dog,3.0,1,False


**18.** Por cada tipo de animal y cada numero de visitas, encuentra la edad media. En otras palabras, cada fila es un animal, cada columna es el numero de visitas y los valores son las edades medias (*pista: utiliza una tabla pivote*).

In [133]:
df.groupby(['animal', 'visits'])['age'].mean()

df.pivot_table(index='animal', columns='visits', values='age', aggfunc='mean') # Another way

visits,1,2,3
animal,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
cat,2.5,,2.25
dog,3.0,6.0,
python,4.5,0.5,


## DataFrames: mas alla de lo basico

### Ejercicios mas complejos: necesitaras mezclar dos funciones o mas para resolverlos

Dificultad: *media*

Recuerda que puede haber mas de una forma de resolverlo.

**19.** Tienes un DataFrame `df` con una columna 'A' con interes. Por ejemplo:
```python
df = pd.DataFrame({'A': [1, 2, 2, 3, 4, 5, 5, 5, 6, 7, 7]})
```

Como filtrarias para descartar las filas que contienen el mismo entero que en la fila inmediatamente anterior?

Deberias obtener las siguientes filas resultantes:

```python
1, 2, 3, 4, 5, 6, 7
```

In [109]:
df = pd.DataFrame({'A': [1, 2, 2, 3, 4, 5, 5, 5, 6, 7, 7]})

df.loc[df['A'].shift() != df['A']]

Unnamed: 0,A
0,1
1,2
3,3
4,4
5,5
8,6
9,7


**20.** Dado un DataFrame con valores numericos aleatorios:
```python
df = pd.DataFrame(np.random.random(size=(5, 3))) # este es un DataFrame 5x3 DataFrame de valores flotantes
```

Como substraerias la fila media a cada elemento en la fila?

In [111]:
df = pd.DataFrame(np.random.random(size=(5, 3)))

df, df.sub(df.mean(axis=1), axis=0)


(          0         1         2
 0  0.412476  0.621097  0.085990
 1  0.656123  0.346031  0.990367
 2  0.838449  0.838767  0.991406
 3  0.822065  0.246868  0.964663
 4  0.758103  0.829956  0.433354,
           0         1         2
 0  0.039288  0.247909 -0.287197
 1 -0.008051 -0.318143  0.326194
 2 -0.051092 -0.050773  0.101865
 3  0.144200 -0.430997  0.286797
 4  0.084299  0.156151 -0.240450)

**21.** Supon tienes un DataFrame con 10 columnas de numeros reales, por ejemplo:

```python
df = pd.DataFrame(np.random.random(size=(5, 10)), columns=list('abcdefghij'))
```
Que columna de numeros tiene la menor suma? Devuelve solo el indice de la columna obtenida.

In [112]:
df = pd.DataFrame(np.random.random(size=(5, 10)), columns=list('abcdefghij'))

df.sum().idxmin()


'b'

**22.** Como contabilizarias las filas unicas de un DataFrame (es decir, ignorar todas las filas duplicadas)?

In [137]:
df = pd.DataFrame(np.random.randint(0, 2, size=(10, 3)))

len(df) - df.duplicated(keep=False).sum() # All rows with no duplicate (1, 2 ,2) returns 1
len(df) - df.duplicated(keep='first').sum() # All rows keeping 1 of the duplicates (1, 2, 2) return 2


6

Los siguientes 3 ejercicios son mas dificiles.

**23.** Tenemos un DataFrame `df` que consiste en 10 columnas de valores flotantes. 5 de ellas son valores NaN.

Para cada fila del DataFrame, encuenta la *columna* que contiene el *tercer* valor NaN.

Deberas devolver la lista de etiquetas de las filas detectadas: `e, c, d, h, d`

In [139]:
nan = np.nan
# What I undersant, i need to return the list for each row, put the column name in which the 3rd nan was found for that row.

data = [[0.04,  nan,  nan, 0.25,  nan, 0.43, 0.71, 0.51,  nan,  nan],
        [ nan,  nan,  nan, 0.04, 0.76,  nan,  nan, 0.67, 0.76, 0.16],
        [ nan,  nan, 0.5 ,  nan, 0.31, 0.4 ,  nan,  nan, 0.24, 0.01],
        [0.49,  nan,  nan, 0.62, 0.73, 0.26, 0.85,  nan,  nan,  nan],
        [ nan,  nan, 0.41,  nan, 0.05,  nan, 0.61,  nan, 0.48, 0.68]]

columns = list('abcdefghij')

df = pd.DataFrame(data, columns=columns)

(df.isnull().cumsum(axis=1) == 3).idxmax(axis=1)

Unnamed: 0,0
0,e
1,c
2,d
3,h
4,d


**24.** Un DataFrame tiene una columna de grupos 'grps' y una columna de enteros 'vals':

```python
df = pd.DataFrame({'grps': list('aaabbcaabcccbbc'),
                   'vals': [12,345,3,1,45,14,4,52,54,23,235,21,57,3,87]})
```
Para cada *group*, calcula la suma de los tres valores mayores.  Deberas obtener algo igual a:
```
grps
a    409
b    156
c    345
```

In [144]:
df = pd.DataFrame({'grps': list('aaabbcaabcccbbc'),
                   'vals': [12,345,3,1,45,14,4,52,54,23,235,21,57,3,87]})

gropued_df = df.groupby('grps').apply(lambda x: x.vals.nlargest(3).sum())
gropued_df

Unnamed: 0_level_0,0
grps,Unnamed: 1_level_1
a,409
b,156
c,345


**25.** El DataFrame `df` esta construido por dos columnas de enteros 'A' y 'B'. Los valores en 'A' son entre 1 y 100 (inclusive).

Para cada grupo de 10 enteros consecutivos en 'A' (ejemplo, `(0, 10]`, `(10, 20]`, ...), calcula la suma de valores correspondientes en la columna 'B'.

La solucion debe ser una Serie parecida a la siguiente:

```
A
(0, 10]      635
(10, 20]     360
(20, 30]     315
(30, 40]     306
(40, 50]     750
(50, 60]     284
(60, 70]     424
(70, 80]     526
(80, 90]     835
(90, 100]    852
```

In [146]:
df = pd.DataFrame(np.random.RandomState(8765).randint(1, 101, size=(100, 2)), columns = ["A", "B"])

df.groupby(pd.cut(df['A'], np.arange(0, 101, 10)))['B'].sum()



  df.groupby(pd.cut(df['A'], np.arange(0, 101, 10)))['B'].sum()


Unnamed: 0_level_0,B
A,Unnamed: 1_level_1
"(0, 10]",635
"(10, 20]",360
"(20, 30]",315
"(30, 40]",306
"(40, 50]",750
"(50, 60]",284
"(60, 70]",424
"(70, 80]",526
"(80, 90]",835
"(90, 100]",852


## PARTE 2
## DataFrames: problemas mas dificiles

## Limpiando Data

### Haciendo un DataFrame mas sencillo para trabajar

Dificultad: *media*

Esto sucede todo el tiempo: alguien te da datos que contienen cadenas mal formadas, listas de Python y datos faltantes. ¿Cómo lo ordenas para poder continuar con el análisis?

Toma esta monstruosidad como el DataFrame a utilizar en los siguientes ejercicios:

```python
df = pd.DataFrame({'From_To': ['LoNDon_paris', 'MAdrid_miLAN', 'londON_StockhOlm',
                               'Budapest_PaRis', 'Brussels_londOn'],
              'FlightNumber': [10045, np.nan, 10065, np.nan, 10085],
              'RecentDelays': [[23, 47], [], [24, 43, 87], [13], [67, 32]],
                   'Airline': ['KLM(!)', '<Air France> (12)', '(British Airways. )',
                               '12. Air France', '"Swiss Air"']})
```

Debe aparecer asi:

```
            From_To  FlightNumber  RecentDelays              Airline
0      LoNDon_paris       10045.0      [23, 47]               KLM(!)
1      MAdrid_miLAN           NaN            []    <Air France> (12)
2  londON_StockhOlm       10065.0  [24, 43, 87]  (British Airways. )
3    Budapest_PaRis           NaN          [13]       12. Air France
4   Brussels_londOn       10085.0      [67, 32]          "Swiss Air"
```

(Son datos de vuelos simulados, no representan ningun valor real)

**26.** Algunos valores en la columna **FlightNumber** estan asuentes (son `NaN`). Estos valores representan incrementos de 10 entre cada fila, asi que 10055 y 10075 deberian ser colocados. Modifica `df` para rellenar automaticamente estos espacios con valores en una columna entera (en lugar de flotante).

In [84]:
df = pd.DataFrame({'From_To': ['LoNDon_paris', 'MAdrid_miLAN', 'londON_StockhOlm',
                               'Budapest_PaRis', 'Brussels_londOn'],
              'FlightNumber': [10045, np.nan, 10065, np.nan, 10085],
              'RecentDelays': [[23, 47], [], [24, 43, 87], [13], [67, 32]],
                   'Airline': ['KLM(!)', '<Air France> (12)', '(British Airways. )',
                               '12. Air France', '"Swiss Air"']})



**27.** La columna **From\_To** deberia ser separada en dos! Corta cada cadena de caracteres utilizando el separador `_` guardando estos cambios en un DataFrame temporal llamado 'temp' que incluya los valores correctos. Denomina las dos nuevas columnas como 'From' y 'To' en este nuevo DataFrame.

**28.** Nota como las mayusculas y minusculas son un desastre en el DataFrame 'temp'. Estandariza las cadenas de caracteres para que solo la primer letra sea mayuscula (ejemplo: "londON" deberia ser "London".)

**29.** Elimina la columna **From_To** de `df` y coloca el DataFrame 'temp' de la pregunta anterior.

**30**. En la columna **Airline**, puedes ver que hay puntuaciones y caracteres especiales con los nombres de las aerolineas. Limpialos para solo mostrar los nombres. Ejemplo: `'(British Airways. )'` debe convertirse en `'British Airways'`.