# Ejercicios de la Librería Pandas

## Ejercicio 1

Escribir un programa que pregunte al usuario por las ventas de un rango de años y muestre por pantalla una serie con los datos de las ventas indexada por los años, antes y después de aplicarles un descuento del 10%.

In [54]:
import pandas as pd
import numpy as np
from IPython.display import display

def programa():
    print('Vamos a ver las ventas de un rango de años')
    y1 = int(input('Proporciona el año de inicio (min. 2018, inclusive): '))
    y2 = int(input('Proporciona el año de fin (max. 2023, inclusive): '))
    
    if y1 > y2 or y1 < 2018 or y2 > 2023:
        print('Incorrect input, try again')
        programa()
        return
        
    df = pd.read_csv('ejercicios_pandas_datos.csv', sep=';', encoding='cp1252', usecols=['año', 'ventas'])
    display(df)

    # Devuelve una Series booleans para todos los valores que cumplan o no la condicion '>= y1'
    # Devuelve una Series booleans para todos los valores que cumplan o no la condicion '<= y2'
    # Devuelve una Series booleans para todos los valores que cumplan la unión de ambas condiciones'
    # Devuelve un data frame para todos los valores de df que cumplan con la Series dada
    aux = df[(df['año'] >= y1) & (df['año'] <= y2)].set_index('año')
    # Añade una nueva columna
    aux['ventas_descuento'] = aux['ventas'] * 0.9
    display(aux)
    
programa()

Vamos a ver las ventas de un rango de años


Proporciona el año de inicio (min. 2018, inclusive):  2018
Proporciona el año de fin (max. 2023, inclusive):  2023


Unnamed: 0,año,ventas
0,2018,15
1,2019,18
2,2020,12
3,2021,2
4,2022,22
5,2023,25


Unnamed: 0_level_0,ventas,ventas_descuento
año,Unnamed: 1_level_1,Unnamed: 2_level_1
2018,15,13.5
2019,18,16.2
2020,12,10.8
2021,2,1.8
2022,22,19.8
2023,25,22.5


## Ejercicio 2

Escribir una función que reciba un diccionario con las notas de los alumno de un curso y devuelva una serie con la nota mínima, la máxima, media y la desviación típica.

In [76]:
import pandas as pd

notas_alumnos = {'Alba': 7.5, 'Luis': 8.2, 'Marta': 9.0, 'Pedro': 6.8, 'Sofía': 7.9, 'Carlos': 8.5}

def info_notas(d: dict):
    res = pd.Series(d)
    summary = pd.Series({
        'min': res.min(),
        'max': res.max(),
        'mean': res.mean(),
        'sd': res.std()})
    print(summary)

info_notas(notas_alumnos)

min     6.800000
max     9.000000
mean    7.983333
sd      0.773089
dtype: float64


## Ejercicio 3

Escribir una función que reciba un diccionario con las notas de los alumnos de un curso y devuelva una serie con las notas de los alumnos aprobados ordenadas de mayor a menor.

In [92]:
import pandas as pd

notas_alumnos2 = {'Alba': 9.5, 'Luis': 3.2, 'Marta': 9.0, 'Pedro': 2.8, 'Sofía': 4.9, 'Carlos': 8.5}

def info_notas2(d: dict):
    aux = pd.Series(d)
    res = aux[aux >= 5].sort_values(ascending=False)
    return res

print(resultado)

Alba      9.5
Marta     9.0
Carlos    8.5
dtype: float64


## Ejercicio 4
Escribir programa que genere y muestre por pantalla un DataFrame con los datos de la tabla siguiente:

| Mes     | Ventas | Gastos |
|---------|-------:|-------:|
| Enero   |  30500 |  22000 |
| Febrero |  35600 |  23400 |
| Marzo   |  28300 |  18100 |
| Abril   |  33900 |  20700 |

In [91]:
import pandas as pd
from IPython.display import display

datos = {'Mes': ['Enero', 'Febrero', 'Marzo', 'Abril'], 'Ventas': [30500, 35600, 28300, 33900], 'Gastos': [22000, 23400, 18100, 20700]}

def programa2(d: dict):
    df = pd.DataFrame(d).set_index('Mes')
    display(df)
    
programa2(datos)

Unnamed: 0_level_0,Ventas,Gastos
Mes,Unnamed: 1_level_1,Unnamed: 2_level_1
Enero,30500,22000
Febrero,35600,23400
Marzo,28300,18100
Abril,33900,20700


## Ejercicio 5

Escribir una función que reciba un DataFrame con el formato del ejercicio anterior, una lista de meses, y devuelva el balance (ventas - gastos) total en los meses indicados.

In [108]:
import pandas as pd
from IPython.display import display

datos = {'Mes': ['Enero', 'Febrero', 'Marzo', 'Abril'], 'Ventas': [30500, 35600, 28300, 33900], 'Gastos': [22000, 23400, 18100, 20700]}
meses = ['Marzo', 'Abril']

def programa2(d: dict, m: list):
    df = pd.DataFrame(d).set_index('Mes')
    aux = df.loc[m]
    return (aux['Ventas'] - aux['Gastos']).sum()

result = programa2(datos, meses)
print('El balance de los meses indicados es:', result)

El balance de los meses indicados es: 23400


## Ejercicio 6

El fichero [cotizacion.csv](https://aprendeconalf.es/docencia/python/ejercicios/soluciones/pandas/cotizacion.csv) contiene las cotizaciones de las empresas del IBEX35 con las siguientes columnas: nombre (nombre de la empresa), Final (precio de la acción al cierre de bolsa), Máximo (precio máximo de la acción durante la jornada), Mínimo (precio mínimo de la acción durante la jornada), volumen (Volumen al cierre de bolsa), Efectivo (capitalización al cierre en miles de euros). Construir una función que construya un DataFrame a partir del un fichero con el formato anterior y devuelva otro DataFrame con el mínimo, el máximo y la media de dada columna.

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


## Ejercicio 7

El fichero [titanic.csv](https://aprendeconalf.es/docencia/python/ejercicios/soluciones/pandas/titanic.csv) contiene información sobre los pasajeros del Titanic. Escribir un programa con los siguientes requisitos:

1. Generar un DataFrame con los datos del fichero.
1. Mostrar por pantalla las dimensiones del DataFrame, el número de datos que contiene, los nombres de sus columnas y filas, los tipos de datos de las columnas, las 10 primeras filas y las 10 últimas filas
1. Mostrar por pantalla los datos del pasajero con identificador 148.
1. Mostrar por pantalla las filas pares del DataFrame.
1. Mostrar por pantalla los nombres de las personas que iban en primera clase ordenadas alfabéticamente.
1. Mostrar por pantalla el porcentaje de personas que sobrevivieron y murieron.
1. Mostrar por pantalla el porcentaje de personas que sobrevivieron en cada clase.
1. Eliminar del DataFrame los pasajeros con edad desconocida.
1. Mostrar por pantalla la edad media de las mujeres que viajaban en cada clase.
1. Añadir una nueva columna booleana para ver si el pasajero era menor de edad o no.
1. Mostrar por pantalla el porcentaje de menores y mayores de edad que sobrevivieron en cada clase.

In [246]:
import seaborn as sns

# 1. Generar un DataFrame con los datos del fichero.
df = sns.load_dataset('titanic')
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     891 non-null    int64   
 1   pclass       891 non-null    int64   
 2   sex          891 non-null    object  
 3   age          714 non-null    float64 
 4   sibsp        891 non-null    int64   
 5   parch        891 non-null    int64   
 6   fare         891 non-null    float64 
 7   embarked     889 non-null    object  
 8   class        891 non-null    category
 9   who          891 non-null    object  
 10  adult_male   891 non-null    bool    
 11  deck         203 non-null    category
 12  embark_town  889 non-null    object  
 13  alive        891 non-null    object  
 14  alone        891 non-null    bool    
dtypes: bool(2), category(2), float64(2), int64(4), object(5)
memory usage: 80.7+ KB


In [247]:
# 2. Mostrar por pantalla las dimensiones del DataFrame, el número de datos que contiene, los nombres de sus columnas y filas,
# los tipos de datos de las columnas, las 10 primeras filas y las 10 últimas filas
print(f'- Dimensiones: {df.shape}\n- Número de datos: {df.size}\n- Nombres de columnas: {df.columns}\n- Nombres de filas: {df.index}'
    f'\n- Tipos de datos:\n{df.dtypes}\n- Primeras 10 filas:')
display(df.head(10))
print('- Últimas 10 filas:')
display(df.tail(10))

- Dimensiones: (891, 15)
- Número de datos: 13365
- Nombres de columnas: Index(['survived', 'pclass', 'sex', 'age', 'sibsp', 'parch', 'fare',
       'embarked', 'class', 'who', 'adult_male', 'deck', 'embark_town',
       'alive', 'alone'],
      dtype='object')
- Nombres de filas: RangeIndex(start=0, stop=891, step=1)
- Tipos de datos:
survived          int64
pclass            int64
sex              object
age             float64
sibsp             int64
parch             int64
fare            float64
embarked         object
class          category
who              object
adult_male         bool
deck           category
embark_town      object
alive            object
alone              bool
dtype: object
- Primeras 10 filas:


Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True
5,0,3,male,,0,0,8.4583,Q,Third,man,True,,Queenstown,no,True
6,0,1,male,54.0,0,0,51.8625,S,First,man,True,E,Southampton,no,True
7,0,3,male,2.0,3,1,21.075,S,Third,child,False,,Southampton,no,False
8,1,3,female,27.0,0,2,11.1333,S,Third,woman,False,,Southampton,yes,False
9,1,2,female,14.0,1,0,30.0708,C,Second,child,False,,Cherbourg,yes,False


- Últimas 10 filas:


Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
881,0,3,male,33.0,0,0,7.8958,S,Third,man,True,,Southampton,no,True
882,0,3,female,22.0,0,0,10.5167,S,Third,woman,False,,Southampton,no,True
883,0,2,male,28.0,0,0,10.5,S,Second,man,True,,Southampton,no,True
884,0,3,male,25.0,0,0,7.05,S,Third,man,True,,Southampton,no,True
885,0,3,female,39.0,0,5,29.125,Q,Third,woman,False,,Queenstown,no,False
886,0,2,male,27.0,0,0,13.0,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.45,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0,C,First,man,True,C,Cherbourg,yes,True
890,0,3,male,32.0,0,0,7.75,Q,Third,man,True,,Queenstown,no,True


In [248]:
# 3. Mostrar por pantalla los datos del pasajero con identificador 148.
display(df.loc[148])

survived                 0
pclass                   2
sex                   male
age                   36.5
sibsp                    0
parch                    2
fare                  26.0
embarked                 S
class               Second
who                    man
adult_male            True
deck                     F
embark_town    Southampton
alive                   no
alone                False
Name: 148, dtype: object

In [249]:
# 4. Mostrar por pantalla las filas pares del DataFrame.
display(df[df.index%2 == 0])

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
6,0,1,male,54.0,0,0,51.8625,S,First,man,True,E,Southampton,no,True
8,1,3,female,27.0,0,2,11.1333,S,Third,woman,False,,Southampton,yes,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
882,0,3,female,22.0,0,0,10.5167,S,Third,woman,False,,Southampton,no,True
884,0,3,male,25.0,0,0,7.0500,S,Third,man,True,,Southampton,no,True
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False


In [251]:
# 5. Mostrar por pantalla los nombres de las personas que iban en primera clase ordenadas alfabéticamente.
res_sorted = df[df['class'] == 'First'].sort_values(by='embark_town')
display(res_sorted)

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
539,1,1,female,22.0,0,2,49.5000,C,First,woman,False,B,Cherbourg,yes,False
537,1,1,female,30.0,0,0,106.4250,C,First,woman,False,,Cherbourg,yes,True
523,1,1,female,44.0,0,1,57.9792,C,First,woman,False,B,Cherbourg,yes,False
513,1,1,female,54.0,1,0,59.4000,C,First,woman,False,,Cherbourg,yes,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
460,1,1,male,48.0,0,0,26.5500,S,First,man,True,E,Southampton,yes,True
527,0,1,male,,0,0,221.7792,S,First,man,True,C,Southampton,no,True
467,0,1,male,56.0,0,0,26.5500,S,First,man,True,,Southampton,no,True
61,1,1,female,38.0,0,0,80.0000,,First,woman,False,B,,yes,True


In [252]:
# 6. Mostrar por pantalla el porcentaje de personas que sobrevivieron y murieron.
table = df.value_counts(df['survived'] == 0)
print(table / df['survived'].size * 100, end='\n\n')
print('Survivors where:', df[df['survived'] == 1]['survived'].count())
print('Deads where:', df[df['survived'] == 0]['survived'].count())

survived
True     61.616162
False    38.383838
Name: count, dtype: float64

Survivors where: 342
Deads where: 549


In [253]:
# 7. Mostrar por pantalla el porcentaje de personas que sobrevivieron en cada clase.
sobrevivientes_clase = df.groupby('class', observed=False)['survived'].mean() * 100
display(sobrevivientes_clase)

deads_clase = df.groupby('class', observed=False)['survived'].apply(lambda x: (x==0).mean() * 100)
display(deads_clase)

class
First     62.962963
Second    47.282609
Third     24.236253
Name: survived, dtype: float64

class
First     37.037037
Second    52.717391
Third     75.763747
Name: survived, dtype: float64

In [254]:
# 8. Eliminar del DataFrame los pasajeros con edad desconocida.
aux = df.dropna(subset=['age'])
display(aux)

714
714


Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
885,0,3,female,39.0,0,5,29.1250,Q,Third,woman,False,,Queenstown,no,False
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


In [None]:
# 9. Mostrar por pantalla la edad media de las mujeres que viajaban en cada clase.

In [None]:
# 10. Añadir una nueva columna booleana para ver si el pasajero era menor de edad o no.

In [None]:
# 11. Mostrar por pantalla el porcentaje de menores y mayores de edad que sobrevivieron en cada clase.