<font size=6 color=red>30 días de Python: Día 25 - Pandas</font>

---

## Pandas

Pandas es una estructura de datos y herramientas de análisis de datos de código abierto, alto rendimiento y fácil de usar para el lenguaje de programación Python. Pandas agrega estructuras de datos y herramientas diseñadas para trabajar con datos similares a tablas, que son Series y Data Frames . Pandas proporciona herramientas para la manipulación de datos:

* reorganización
* fusionando
* clasificación
* rebanar
* agregación
* imputación Si está utilizando anaconda, no tiene que instalar pandas.


---

## Instalando pandas

Para Mac:

```bash
pip install conda
conda install pandas
```

Para Windows:

```bash
pip install conda
pip install pandas
```

La estructura de datos de Pandas se basa en Series y DataFrames.

Una serie es una columna y un DataFrame es una tabla multidimensional compuesta por una colección de series . Para crear una serie de pandas, debemos usar numpy para crear matrices unidimensionales o una lista de python. Veamos un ejemplo de una serie:

__Series de Nombres__

https://github.com/Asabeneh/30-Days-Of-Python/blob/master/images/pandas-series-1.png

<img src='Imagenes/imagen_1.png'>

__Series de países__

https://github.com/Asabeneh/30-Days-Of-Python/blob/master/images/pandas-series-2.png

<img src='Imagenes/imagen_2.png'>

__Series de ciudades__

https://github.com/Asabeneh/30-Days-Of-Python/blob/master/images/pandas-series-3.png

<img src='Imagenes/imagen_3.png'>

Como puede ver, la serie pandas es solo una columna de datos. Si queremos tener varias columnas, usamos marcos de datos. El siguiente ejemplo muestra pandas DataFrames.

Veamos un ejemplo de un marco de datos de pandas:

https://github.com/Asabeneh/30-Days-Of-Python/blob/master/images/pandas-dataframe-1.png

<img src='Imagenes/imagen_4.png'>

El marco de datos es una colección de filas y columnas. Mire la tabla a continuación; tiene muchas más columnas que el ejemplo anterior:

https://github.com/Asabeneh/30-Days-Of-Python/blob/master/images/pandas-dataframe-2.png

<img src='Imagenes/imagen_5.png'>

A continuación, veremos cómo importar pandas y cómo crear Series y DataFrames usando pandas.


---

## Importación de pandas

```python
import pandas as pd # importing pandas as pd
import numpy  as np # importing numpy as np
```

---

## Creación de series Pandas con índice predeterminado

In [None]:
import pandas as pd

nums = [1, 2, 3, 4,5]
s = pd.Series(nums)
print(s)

*Salida:*

```text
    0    1
    1    2
    2    3
    3    4
    4    5
    dtype: int64
```

---

## Creación de series Pandas con índice personalizado

In [None]:
import pandas as pd

nums = [1, 2, 3, 4, 5]
s = pd.Series(nums, index=[1, 2, 3, 4, 5])
print(s)

*Salida:*

```text
    1    1
    2    2
    3    3
    4    4
    5    5
    dtype: int64
```



In [None]:
import pandas as pd

fruits = ['Orange', 'Banana', 'Mango']
fruits = pd.Series(fruits, index=[1, 2, 3])
print(fruits)

*Salida:*

```text
    1    Orange
    2    Banana
    3    Mango
    dtype: object
```


---

## Creación de series Pandas a partir de un diccionario

In [None]:
import pandas as pd

dct = {'name':'Asabeneh','country':'Finland','city':'Helsinki'}

s = pd.Series(dct)
print(s)

*Salida:*


```text
    name       Asabeneh
    country     Finland
    city       Helsinki
    dtype: object
```


---

## Crear una serie de pandas constantes

In [None]:
import pandas as pd

s = pd.Series(10, index = [1, 2, 3])
print(s)

*Salida:*

```text
    1    10
    2    10
    3    10
    dtype: int64
```


---

## Creando una Serie Pandas Usando Linspace

In [None]:
import pandas as pd

s = pd.Series(np.linspace(5, 20, 10)) # linspace(starting, end, items)
print(s)

*Salida:*

```text
    0     5.000000
    1     6.666667
    2     8.333333
    3    10.000000
    4    11.666667
    5    13.333333
    6    15.000000
    7    16.666667
    8    18.333333
    9    20.000000
    dtype: float64
    ```
    

---

## Marcos de datos

Los marcos de datos de Pandas se pueden crear de diferentes maneras.

__Creación de tramas de datos a partir de una lista de listas__

In [None]:
import pandas as pd

data = [
    ['Asabeneh', 'Finland', 'Helsink'], 
    ['David', 'UK', 'London'],
    ['John', 'Sweden', 'Stockholm']
]

df = pd.DataFrame(data, columns=['Names','Country','City'])

print(df)

*Salida:*

```text
    nombres     País            Ciudad
0   Asabeneh    Finlandia       Helsink
1   David       Reino Unido     Londres
2   John        Suecia	        Estocolmo
```

___Creación de DataFrame usando el diccionario___



In [None]:
import pandas as pd

data = {'Name': ['Asabeneh', 'David', 'John'], 'Country':[
    'Finland', 'UK', 'Sweden'], 'City': ['Helsiki', 'London', 'Stockholm']}

df = pd.DataFrame(data)

print(df)

*Salida:*

```text
    nombres     País            Ciudad
0   Asabeneh    Finlandia       Helsink
1   David       Reino Unido     Londres
2   John        Suecia          Estocolmo
```

__Crear tramas de datos a partir de una lista de diccionarios__

In [None]:
import pandas as pd

data = [
    {'Name': 'Asabeneh', 'Country': 'Finland', 'City': 'Helsinki'},
    {'Name': 'David', 'Country': 'UK', 'City': 'London'},
    {'Name': 'John', 'Country': 'Sweden', 'City': 'Stockholm'}]

df = pd.DataFrame(data)

print(df)

*Salida:*

```text
    nombres     País            Ciudad
0   Asabeneh    Finlandia       Helsink
1   David       Reino Unido     Londres
2   John        Suecia          Estocolmo
```


---

## Leer archivo CSV usando Pandas

Para descargar el archivo CSV, lo que se necesita en este ejemplo, consola/línea de comando es suficiente:

curl -O https://raw.githubusercontent.com/Asabeneh/30-Days-Of-Python/master/data/weight-height.csv

Coloque el archivo descargado en su directorio de trabajo.


In [None]:
import pandas as pd

df = pd.read_csv('weight-height.csv')
print(df)

---

## Exploración de datos

Leamos solo las primeras 5 filas usando head() 

```python
print(df.head()) # Dar cinco filas podemos aumentar el número de filas pasando el argumento al método head()
```
*Salida:*

```text
    Género	      Altura	   Peso
0	Masculino	73.847017	241.893563
1	Masculino	68.781904	162.310473
2	Masculino	74.110105	212.740856
3	Masculino	71.730978	220.042470
4	Masculino	69.881796	206.349801
```

Exploremos también las últimas grabaciones del dataframe usando los métodos tail(). 

```python
# La función 'tail' muestra las últimas cinco filas, podemos aumentar el número de filas pasando un argumento al método 'tail'.
print(df.tail()) 
```
*Salida:*

```text
         Género	     Altura	       Peso
9995	Femenino	66.172652	136.777454
9996	Femenino	67.067155	170.867906
9997	Femenino	63.867992	128.475319
9998	Femenino	69.034243	163.852461
9999	Femenino	61.944246	113.649103
```

Como puede ver, el archivo csv tiene tres filas: Género, Altura y Peso. Si el DataFrame tuviera filas largas, sería difícil conocer todas las columnas. Por lo tanto, debemos usar un método para conocer las columnas. no sabemos el número de filas. Usemos el método de forma.

```python
print(df.shape) # as you can see 10000 rows and three columns
```
*Salida:*

```text
 (10000, 3) 
```

Obtengamos todas las columnas usando columnas. 

```python
print(df.columns)
```
*Salida:*

```text
Index(['Gender', 'Height', 'Weight'], dtype='object') 
```

Ahora, obtengamos una columna específica usando la clave de columna.

```python
heights = df['Height'] # this is now a series
print(heights)
```
*Salida:*


```text
    0       73.847017
    1       68.781904
    2       74.110105
    3       71.730978
    4       69.881796
              ...    
    9995    66.172652
    9996    67.067155
    9997    63.867992
    9998    69.034243
    9999    61.944246
    Name: Height, Length: 10000, dtype: float64
```

```python
weights = df['Weight'] # this is now a series
print(weights)
```
*Salida:*

```text
    0       241.893563
    1       162.310473
    2       212.740856
    3       220.042470
    4       206.349801
               ...    
    9995    136.777454
    9996    170.867906
    9997    128.475319
    9998    163.852461
    9999    113.649103
    Name: Weight, Length: 10000, dtype: float64
```

```python
print(len(heights) == len(weights))
```
*Salida:*

```python
True 
```

El método describe() proporciona valores estadísticos descriptivos de un conjunto de datos. 

```python
print(heights.describe())  # Proporciona información estadística sobre los datos de altura.
```
*Salida:*

```text
    count    10000.000000
    mean        66.367560
    std          3.847528
    min         54.263133
    25%         63.505620
    50%         66.318070
    75%         69.174262
    max         78.998742
    Name: Height, dtype: float64
```

```python
print(weights.describe())
```
*Salida:*

```text
    count    10000.000000
    mean       161.440357
    std         32.108439
    min         64.700127
    25%        135.818051
    50%        161.212928
    75%        187.169525
    max        269.989699
    Name: Weight, dtype: float64
```

```python
print(df.describe())  # La función 'describe' también puede proporcionar información estadística de un DataFrame.
```
*Salida:*

```text
                    Altura          Peso
count               10000.000000    10000.000000
mean                66.367560       161.440357
std                 3.847528        32.108439
min                 54.263133       64.700127
25%                 63.505620       135.818051
50%                 66.318070       161.212928
75%                 69.174262       187.169525
máximo              78.998742       269.989699
```



Similar a describe(), el método info() también brinda información sobre el conjunto de datos. 

---

## Modificación de un marco de datos

*Modificando un DataFrame:* 

* Podemos crear un nuevo DataFrame 
* Podemos crear una nueva columna y agregarla al DataFrame
* Podemos eliminar una columna existente de un DataFrame
* Podemos modificar una columna existente en un DataFrame
* Podemos cambiar el tipo de datos de los valores de columna en el DataFrame

---

## Creación de un marco de datos

Como siempre, primero importamos los paquetes necesarios. Ahora, importemos pandas y numpy, dos mejores amigos de todos los tiempos.


In [None]:
import pandas as pd
import numpy as np


data = [
    {"Name": "Asabeneh", "Country":"Finland","City":"Helsinki"},
    {"Name": "David", "Country":"UK","City":"London"},
    {"Name": "John", "Country":"Sweden","City":"Stockholm"}]

df = pd.DataFrame(data)
print(df)

*Salida:*

```text
       Name  Country       City
0  Asabeneh  Finland   Helsinki
1     David       UK     London
2      John   Sweden  Stockholm
```
Agregar una columna a un DataFrame es como agregar una clave a un diccionario.

Primero, usemos el ejemplo anterior para crear un DataFrame. Después de crear el DataFrame, comenzaremos a modificar las columnas y los valores de las columnas.

__Agregar una nueva columna__

Agreguemos una columna de peso en el DataFrame

In [None]:
import pandas as pd
import numpy as np


data = [
    {"Name": "Asabeneh", "Country":"Finland","City":"Helsinki"},
    {"Name": "David", "Country":"UK","City":"London"},
    {"Name": "John", "Country":"Sweden","City":"Stockholm"}]

df = pd.DataFrame(data)

weights = [74, 78, 69]
df['Weight'] = weights
print(df)

*Salida:*

```text
        Name  Country       City  Weight
0  Asabeneh  Finland   Helsinki      74
1     David       UK     London      78
2      John   Sweden  Stockholm      69
```
Agreguemos también una columna de altura en el DataFrame

In [None]:
import pandas as pd
import numpy as np


data = [
    {"Name": "Asabeneh", "Country":"Finland","City":"Helsinki"},
    {"Name": "David", "Country":"UK","City":"London"},
    {"Name": "John", "Country":"Sweden","City":"Stockholm"}]

df = pd.DataFrame(data)

weights = [74, 78, 69]
df['Weight'] = weights

heights = [173, 175, 169]
df['Height'] = heights

print(df)

*Salida:*

```text
       Name  Country       City  Weight  Height
0  Asabeneh  Finland   Helsinki      74     173
1     David       UK     London      78     175
2      John   Sweden  Stockholm      69     169
```
Como puede ver en el DataFrame anterior, agregamos nuevas columnas, Peso y Altura. Agreguemos una columna adicional llamada IMC (índice de masa corporal) calculando su IMC usando su masa y altura. El IMC es la masa dividida por la altura al cuadrado (en metros) - Peso/Altura * Altura.

Como puede ver, la altura está en centímetros, por lo que debemos cambiarla a metros. Modifiquemos la fila de altura.

__Modificar valores de columna__

```python
df['Height'] = df['Height'] * 0.01
```


In [None]:
import pandas as pd
import numpy as np


data = [
    {"Name": "Asabeneh", "Country":"Finland","City":"Helsinki"},
    {"Name": "David", "Country":"UK","City":"London"},
    {"Name": "John", "Country":"Sweden","City":"Stockholm"}]

df = pd.DataFrame(data)

weights = [74, 78, 69]
df['Weight'] = weights

heights = [173, 175, 169]
df['Height'] = heights
df['Height'] = df['Height'] * 0.01

print(df)

*Salida:*

```text
       Name  Country       City  Weight  Height
0  Asabeneh  Finland   Helsinki      74    1.73
1     David       UK     London      78    1.75
2      John   Sweden  Stockholm      69    1.69
```

__Usar funciones hace que nuestro código sea más limpio, pero puedes calcular el IMC (Índice de Masa Corporal) sin utilizar una función.__

In [None]:
def calculate_bmi ():
    weights = df['Weight']
    heights = df['Height']
    bmi = []
    
    for w,h in zip(weights, heights):
        b = w/(h*h)
        bmi.append(b)
    
    return bmi
    
bmi = calculate_bmi()

df['BMI'] = bmi
print(df)

*Salida:*

```text
      Name  Country       City  Weight  Height        BMI
0  Asabeneh  Finland   Helsinki      74    1.73  24.725183
1     David       UK     London      78    1.75  25.469388
2      John   Sweden  Stockholm      69    1.69  24.158818
```


---

## Formateo de columnas de DataFrame

Los valores de la columna BMI del DataFrame son flotantes con muchos dígitos significativos después del decimal. 
Cambiémoslo a un dígito significativo después del punto.


In [None]:
df['BMI'] = round(df['BMI'], 1)
print(df)

*Salida:*

```text
       Name  Country       City  Weight  Height   BMI
0  Asabeneh  Finland   Helsinki      74    1.73  24.7
1     David       UK     London      78    1.75  25.5
2      John   Sweden  Stockholm      69    1.69  24.2
```


La información en el DataFrame parece no estar aún completa, agreguemos las columnas año de nacimiento y año actual.


In [None]:
birth_year = ['1769', '1985', '1990']
current_year = pd.Series(2020, index=[0, 1,2])
df['Birth Year'] = birth_year
df['Current Year'] = current_year
print(df)

*Salida:*

```text
       Name  Country       City  Weight  Height   BMI Birth Year  Current Year
0  Asabeneh  Finland   Helsinki      74    1.73  24.7       1769          2020
1     David       UK     London      78    1.75  25.5       1985          2020
2      John   Sweden  Stockholm      69    1.69  24.2       1990          2020
```


---

## Comprobación de tipos de datos de valores de columna

In [None]:
print(df.Weight.dtype)  # dtype('int64')

df['Birth Year'].dtype # Devuelve un objeto de tipo cadena, deberíamos cambiar esto a un número

df['Birth Year'] = df['Birth Year'].astype('int')
print(df['Birth Year'].dtype) # Vamos a comprobar el tipo de datos ahora

*Salida:*

```text
int64
int64
```


Ahora mismo para el año en curso:

In [None]:
df['Current Year'] = df['Current Year'].astype('int')
df['Current Year'].dtype

*Salida:*

```text
dtype('int64')
```


Ahora, los valores de las columnas del año de nacimiento y el año actual son números enteros. Podemos calcular la edad.

In [None]:
ages = df['Current Year'] - df['Birth Year']
print(ages)

*Salida:*

```text
0    251
1     35
2     30
dtype: int64
```


In [None]:
df['Ages'] = ages
print(df)

*Salida:*

```text
       Name  Country       City  Weight  Height   BMI  Birth Year  \
0  Asabeneh  Finland   Helsinki      74    1.73  24.7        1769   
1     David       UK     London      78    1.75  25.5        1985   
2      John   Sweden  Stockholm      69    1.69  24.2        1990   

   Current Year  Ages  
0          2020   251  
1          2020    35  
2          2020    30  
```


La persona de la primera fila vivió hasta ahora durante 251 años. Es poco probable que alguien viva tanto tiempo. 
O es un error tipográfico o los datos están manipulados. Entonces, llenemos esos datos con el promedio de las columnas sin incluir valores atípicos.


In [None]:
media = (35 + 30) / 2
mean = (35 + 30) / 2

print('Mean: ', mean)  # Es bueno agregar alguna descripción a la salida, para que sepamos qué es qué.

*Salida:*

```text
Mean:  32.5
```


---

## Indexación booleana

```python
print(df[df['Ages'] > 120])
```


Esta línea imprime un subconjunto de un DataFrame (df) que cumple una condición específica.

```text
* df es el DataFrame que contiene tus datos.
* ['Ages'] se refiere a la columna 'Ages' en el DataFrame.
* > 120 es la condición que se aplica a la columna 'Ages'.
```


Juntos, df['Ages'] > 120 seleccionan solo las filas del DataFrame en las que los valores de la columna 'Ages' son mayores que 120.

Al imprimir df[df['Ages'] > 120], se mostrarán solo las filas del DataFrame que cumplan la condición df['Ages'] > 120. En otras palabras, esta línea de código te permite filtrar y visualizar solo las filas de tu DataFrame en las que la edad es mayor que 120.

In [None]:
print(df[df['Ages'] > 120])

*Salida:*

```text
       Name  Country      City  Weight  Height   BMI  Birth Year  \
0  Asabeneh  Finland  Helsinki      74    1.73  24.7        1769   

   Current Year  Ages  
0          2020   251 
```
