# Pair Pandas

El objetivo de la clase de hoy será crear unos cuántos DataFrames y Series a través de los siguientes ejercicios:

¿Qué diferencia hay entre una Serie y un DataFrame?



### Serie
- **Estructura:** Una Serie es un arreglo unidimensional similar a una columna en una tabla.
- **Datos:** Contiene datos de un solo tipo (numérico, cadena de texto, booleano, etc.).
- **Etiquetas:** Cada elemento de la Serie tiene una etiqueta (índice), que puede ser numérica o de cualquier otro tipo.
- **Uso común:** Se usa para representar una sola columna de datos o una lista etiquetada de datos.

### DataFrame
- **Estructura:** Un DataFrame es una estructura bidimensional, similar a una tabla con filas y columnas.
- **Datos:** Puede contener múltiples tipos de datos (numéricos, cadenas de texto, booleanos, etc.) en diferentes columnas.
- **Etiquetas:** Tanto las filas como las columnas tienen etiquetas (índices). Las etiquetas de las filas son similares a las de la Serie, mientras que las etiquetas de las columnas son los nombres de las columnas.
- **Uso común:** Se usa para representar un conjunto de datos tabular, con múltiples columnas y filas.


### Resumen de diferencias
| Característica | Serie                       | DataFrame                      |
|----------------|-----------------------------|--------------------------------|
| Dimensión      | Unidimensional              | Bidimensional                  |
| Estructura     | Arreglo con un solo índice  | Tabla con filas y columnas     |
| Tipos de datos | Un solo tipo de datos       | Múltiples tipos de datos       |
| Uso común      | Columna de datos o lista    | Conjunto de datos tabular      |

En resumen, una Serie es adecuada para manejar una sola columna de datos, mientras que un DataFrame es más apropiado para trabajar con datos tabulares que tienen múltiples columnas.

Momento de trabajar con Series. Contesta a las siguientes preguntas:

Crea dos listas:

Una que se llame "valores" que tenga 7 números aleatorios.

Otra que se llame "indices" que tenga 7 strings que se llamen como los días de la semana.

A partir de estas dos listas crea una Serie donde la variable "valores" sean los valores de la Serie y la variable indices sean los índices de la Serie.

In [29]:
import pandas as pd
import numpy as np

In [2]:
valores = [3, 6, 2, 9, 13, 26, 8]
indices = ["Lunes", "Martes", "Miércoles", "Jueves", "Viernes", "Sábado", "Domingo"]

serie = pd.Series(valores, indices)

serie

Lunes         3
Martes        6
Miércoles     2
Jueves        9
Viernes      13
Sábado       26
Domingo       8
dtype: int64

A partir de las dos listas anteriores crea un diccionario usando un bucle for. Para hacer esto tenemos el método zip que nos permite iterar por dos listas a la vez. Más informción sobre este método [aquí](https://www.programiz.com/python-programming/methods/built-in/zip).


In [6]:
diccionario = dict(zip(indices, valores))
diccionario

{'Lunes': 3,
 'Martes': 6,
 'Miércoles': 2,
 'Jueves': 9,
 'Viernes': 13,
 'Sábado': 26,
 'Domingo': 8}

In [8]:
diccionario = {i:j for i, j in zip(indices, valores)}
diccionario


{'Lunes': 3,
 'Martes': 6,
 'Miércoles': 2,
 'Jueves': 9,
 'Viernes': 13,
 'Sábado': 26,
 'Domingo': 8}

Crea una Serie con el diccionario creado en el punto anterior.


In [9]:
serie1 = pd.Series(diccionario)
serie1

Lunes         3
Martes        6
Miércoles     2
Jueves        9
Viernes      13
Sábado       26
Domingo       8
dtype: int64

¿Qué forma tiene esta última Serie?



In [10]:
serie1.shape

(7,)

¿Qué tipo de datos tiene?


In [13]:
serie1.dtype

dtype('int64')

¿Qué tamaño tiene?



In [14]:
serie1.size

7

¿Cuáles son los índices de la Serie?



In [15]:
serie1.index

Index(['Lunes', 'Martes', 'Miércoles', 'Jueves', 'Viernes', 'Sábado',
       'Domingo'],
      dtype='object')

¿Y los values?



In [16]:
serie1.values

array([ 3,  6,  2,  9, 13, 26,  8])

Extrae el valor para el índice "lunes"



In [24]:
valor = serie1['Lunes']
print(f"valor: {valor}, tipo: {type(valor)}")

valor: 3, tipo: <class 'numpy.int64'>


Extrae el valor para el índice "lunes", "martes" y "miércoles".



In [25]:
valor1 = serie1['Lunes':'Miércoles']
print(f"valor: {valor1}, tipo: {type(valor1)}")

valor: Lunes        3
Martes       6
Miércoles    2
dtype: int64, tipo: <class 'pandas.core.series.Series'>


Extrae el valor para el índice "lunes" y "domingo".



In [28]:
valor2 = serie1[['Lunes', 'Domingo']]
print(f"valor: {valor2}, tipo: {type(valor2)}")

valor: Lunes      3
Domingo    8
dtype: int64, tipo: <class 'pandas.core.series.Series'>


Es el turno de los DataFrames

Crea un array de dos dimensiones con 4 filas y 3 columnas.



In [30]:
array = np.random.randint(0, 100, (4, 3))
array

array([[70, 58, 18],
       [37, 17, 78],
       [69, 96, 63],
       [84, 27, 31]])

Convierte el array en un DataFrame donde las columnas se llamen "España", "Francia" e "Italia".



In [31]:
df = pd.DataFrame(array, columns=["España", "Francia", "Italia"])
df

Unnamed: 0,España,Francia,Italia
0,70,58,18
1,37,17,78
2,69,96,63
3,84,27,31


Descarga el archivo "medallas" y carga el DataFrame.



In [33]:
df_med = pd.read_csv('medallas.csv', index_col=0)
df_med

Unnamed: 0,País,Oro,Plata,Bronce
1,China,1473,994,720
2,Japón,1032,1037,985
3,Corea del Sur,745,663,827
4,Irán,179,181,197
5,Kazajistán,155,158,224
6,India,154,202,315
7,Tailandia,132,175,278
8,Indonesia,112,131,240
9,China Taipéi,99,144,276
10,Corea del Norte,91,120,235


Usando el loc extrae todas las columnas de la fila de Tailandia.



In [36]:
filas_tai = df_med.loc[df_med['País'] == 'Tailandia']
filas_tai

Unnamed: 0,País,Oro,Plata,Bronce
7,Tailandia,132,175,278


In [42]:
filas_tai = df_med.loc[7]
filas_tai

País      Tailandia
Oro             132
Plata           175
Bronce          278
Name: 7, dtype: object

In [41]:
filas_tai = df_med.loc[[7]]
filas_tai

Unnamed: 0,País,Oro,Plata,Bronce
7,Tailandia,132,175,278


Usando el loc extrae todas las columnas de China e Irán.



In [40]:
chi_iran = df_med.loc[[1, 4]]
chi_iran

Unnamed: 0,País,Oro,Plata,Bronce
1,China,1473,994,720
4,Irán,179,181,197


Usando el loc extrae solo las columnas de "Oro", "Plata" y "Bronce" de China e Irán.



In [43]:
columnas = df_med.loc[[1, 4], ["Oro", "Plata", "Bronce"]]
columnas

Unnamed: 0,Oro,Plata,Bronce
1,1473,994,720
4,179,181,197


Usando el iloc extrae la información de la India. Devolved todas las columnas.



In [45]:
india = df_med.iloc[[5]]
india

Unnamed: 0,País,Oro,Plata,Bronce
6,India,154,202,315


Usando el iloc extrae todas las columnas de los paises que estén en posición impar. La primera que nos tendría que salir es Japón y la última Corea del Norte.



In [46]:
impar = df_med.iloc[1::2]
impar

Unnamed: 0,País,Oro,Plata,Bronce
2,Japón,1032,1037,985
4,Irán,179,181,197
6,India,154,202,315
8,Indonesia,112,131,240
10,Corea del Norte,91,120,235


Utilizando el código del ejercicio anterior, selecciona unicamente las columnas "Oro", "Plata" y "Bronce".



In [47]:
nuevo_df = impar[["Oro", "Plata", "Bronce"]]
nuevo_df

Unnamed: 0,Oro,Plata,Bronce
2,1032,1037,985
4,179,181,197
6,154,202,315
8,112,131,240
10,91,120,235


Contesta a las siguientes preguntas:

¿Qué país consiguió más de 200 medallas de oro?



In [48]:
df_med

Unnamed: 0,País,Oro,Plata,Bronce
1,China,1473,994,720
2,Japón,1032,1037,985
3,Corea del Sur,745,663,827
4,Irán,179,181,197
5,Kazajistán,155,158,224
6,India,154,202,315
7,Tailandia,132,175,278
8,Indonesia,112,131,240
9,China Taipéi,99,144,276
10,Corea del Norte,91,120,235


In [53]:
pais = df_med[df_med['Oro']>200][['País']]
pais

Unnamed: 0,País
1,China
2,Japón
3,Corea del Sur


¿Qué país consiguió más de 200 medallas de oro y más de 1000 de plata?



In [56]:
pais1 = df_med[(df_med['Oro']>200) & (df_med['Plata']>1000)][['País']]
pais1

Unnamed: 0,País
2,Japón


¿Qué país consiguió más de 200 medallas de oro o más de 700 de bronce?


In [57]:
pais2 = df_med[(df_med['Oro']>200) | (df_med['Bronce']>700)][['País']]
pais2

Unnamed: 0,País
1,China
2,Japón
3,Corea del Sur


Crea una nueva columma que se llame "total" que sea el resultado de la suma de todas las medallas obtenidas por cada país.


In [60]:
df_med['Total'] = df_med["Oro"] + df_med["Plata"] + df_med["Bronce"]
df_med

Unnamed: 0,País,Oro,Plata,Bronce,Total
1,China,1473,994,720,3187
2,Japón,1032,1037,985,3054
3,Corea del Sur,745,663,827,2235
4,Irán,179,181,197,557
5,Kazajistán,155,158,224,537
6,India,154,202,315,671
7,Tailandia,132,175,278,585
8,Indonesia,112,131,240,483
9,China Taipéi,99,144,276,519
10,Corea del Norte,91,120,235,446


In [81]:
df_med['Total'] = df_med[['Oro', 'Plata', 'Bronce']].sum(axis=1)
df_med

Unnamed: 0,País,Oro,Plata,Bronce,Total
1,China,1473,994,720,3187
2,Japón,1032,1037,985,3054
3,Corea del Sur,745,663,827,2235
4,Irán,179,181,197,557
5,Kazajistán,155,158,224,537
6,India,154,202,315,671
7,Tailandia,132,175,278,585
8,Indonesia,112,131,240,483
9,China Taipéi,99,144,276,519
10,Corea del Norte,91,120,235,446
