**Módulo 5:** Trabajando con Series y DataFrames

##### Acostumbrándose a las Estructuras de Datos de Pandas
---

In [3]:
import pandas as pd

### Creando DataFrames

Para crear un DataFrame se usa la función o constructor `pd.DataFrame()`, por ejemplo para crear el dataframe que represente la siguiente tabla de datos pordríamos partir de una lista de listas por ejemplo:

`tabla = [[1,2,3], [4,5,6], [7,8,9]]`

y entonces crear el DataFrame:

`df_tabla = pd.DataFrame(tabla)`

In [1]:
tabla = 

In [4]:
df_tabla = 
df_tabla

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


Comose puede ver un DataFrame nos ayuda a representar información de tipo tabular y si no indicamos nada más los índices son numéricos iniciando en 0 como en las series y las etiquetas de las columnas siguen la misma regla, así que si se desea obtener la columna 0 se usaría la forma:

`df[columna]`

In [1]:
# el índice 0 o primer columna

O por ejemplo podría obtener la última fila usando la notación:

`df.loc[-indice de fila-]`

Aunque con ésta última notación podríamos acceder tanto a filas o columnas usando la forma:

`df.loc[filas, columnas]`

In [2]:
# última fila, última columna

In [3]:
# rebanadas o slices en dataframe

In [4]:
# filas en rango y columnas dicretas usando una lista

Y al igual que con la series podemos incializar un DataFrame con índices y etiquetas de columnas distintos usando la forma:

`pd.DataFrame(datos, index=lista, columns=lista)`

Por ejemplo si contamos con la siguiente lista de listas, donde cada fila contiene el nombre del vendedor, ventas del 2020 y el porciento de participación:

In [10]:
datos = [('Intel', 70244, 15.61539932153353),
 ('Samsung Electronics', 56197, 12.492719601278683),
 ('SK hynix', 25271, 5.617800185844682),
 ('Micron Technology', 22098, 4.912435143318261),
 ('Qualcomm', 17906, 3.9805441069896275),
 ('Broadcom', 15695, 3.489033829956562),
 ('Texas Instruments', 13074, 2.906379630000133),
 ('MediaTek', 11008, 2.447103179366794),
 ('KIOXIA', 10208, 2.269261378540719),
 ('Nvidia', 10095, 2.244141224174036),
 ('Others (outside top 10)', 198042, 44.02518239899697)]

Entonces si deseamos construir nuestro DataFrame donde el índice se comienza a numerar desde 1 y las columnas tienen las etiquetas:

`"Vendedor", "Ventas 2020", "Partipación (%)"`

Usando la notación:

```
pd.DataFrame(-datos-, columns=-lista-, index=-range|lista-)
```

el resultado sería:

In [17]:
columnas = 
df_tabla = 
df_tabla

Unnamed: 0,Vendedor,Ventas 2020,Participación (%)
1,Intel,70244,15.615399
2,Samsung Electronics,56197,12.49272
3,SK hynix,25271,5.6178
4,Micron Technology,22098,4.912435
5,Qualcomm,17906,3.980544
6,Broadcom,15695,3.489034
7,Texas Instruments,13074,2.90638
8,MediaTek,11008,2.447103
9,KIOXIA,10208,2.269261
10,Nvidia,10095,2.244141


Y si quisiéramos aplicar funciones de agregación como `df.sum()` a todas las columnas, sería por ejemplo aplicarlo a columnas de tipo numérico, así que podemos seleccionar las columnas y aplicar la función usando la forma:

`df[ -lista-columnas- ].sum()`

También podemos crear DataFrames usando diccionarios usando la forma:

`pd.DataFrame(-diccionario-, ...)`

Sólo que el diccionario debe seguir siertos criterios y debe tener la forma siguiente:

```
datos_dict = {
    "col1": [ -datos col 1-],
    "col2": [ -datos col 2-],
    "colN": [ -datos col N-],
}
```
Así que las llaves serán las etiquetas de las columnas y la listas los datos de las columnas, pero todas las listas deberán de tener la misma cantidad de datos.

Por ejemplo para crear el mismo DataFrame de Vendedores de chips usando un diccionarios se deberá usar el siguiente:

In [20]:
datos = {
    'Vendedor': ['Intel', 'Samsung Electronics', 'SK hynix', 'Micron Technology',
                 'Qualcomm', 'Broadcom', 'Texas Instruments', 'MediaTek', 'KIOXIA',
                 'Nvidia', 'Others (outside top 10)'],
    'Ventas 2020': [70244, 56197, 25271, 22098, 17906, 15695, 13074, 11008, 10208,
                    10095, 198042],
    'Participación (%)': [15.61539932153353, 12.492719601278683, 5.617800185844682,
                          4.912435143318261, 3.9805441069896275, 3.489033829956562,
                          2.906379630000133, 2.447103179366794, 2.269261378540719,
                          2.244141224174036, 44.02518239899697]
}

Y ahora creamos el DataFrame, si deseamos que el índice comience en 1, entonces usaríamos la forma:

`pd.DataFrame(datos, index=-lista de índices-)`

In [28]:
df_tabla = 
df_tabla

Unnamed: 0,Vendedor,Ventas 2020,Participación (%)
1,Intel,70244,15.615399
2,Samsung Electronics,56197,12.49272
3,SK hynix,25271,5.6178
4,Micron Technology,22098,4.912435
5,Qualcomm,17906,3.980544
6,Broadcom,15695,3.489034
7,Texas Instruments,13074,2.90638
8,MediaTek,11008,2.447103
9,KIOXIA,10208,2.269261
10,Nvidia,10095,2.244141


### Exportando e importando datos de un DataFrame

Pandas cuenta con varias funciones para exportare importar DataFrames y unas de las más usadas son las que nos permiten exportar e importar datos a archivos en formato CSV o JSON y alternativamente en formato Excel.

Primero vamos a revisar la exportación, para ello se usa la forma:

`df.to_FORMATO(-parámetros-)`

Donde FORMATO indica generalmente el formato al que deseamos exportar, por ejemplo para exportar a CSV o JSON se podrían usar las funciones:

```
df.to_csv(-nombre-archivo-, encoding="utf-8")
df.to_json(-nombre-archivo-, indent=4)
```

Por ejemplo, exporta el DataFrame de Vendedores en ambos formatos creando los archivos `vendedores-chips.csv` y `vendedores-chips.json`:

Para la importación de datos a un DataFrame es similar a la exportación la forma es la siguiente:

`pd.read_FORMATO(-parámetros-)`

Donde FORMATO nuevamente indica el formato del que deseamos importar y en el caso de CSV y JSON las funciones serían:

```
df.read_csv(-nombre archivo-, encoding="utf-8", index_col=-nombre de columna-)
df.read_json(-nombre archivo-)
```

Por ejemplo vamos a importar ambos DataFrames en las variables `tabla_csv` y `tabla_json` respectivamente:

In [32]:
tabla_csv = 
tabla_csv

Unnamed: 0,Vendedor,Ventas 2020,Participación (%)
1,Intel,70244,15.615399
2,Samsung Electronics,56197,12.49272
3,SK hynix,25271,5.6178
4,Micron Technology,22098,4.912435
5,Qualcomm,17906,3.980544
6,Broadcom,15695,3.489034
7,Texas Instruments,13074,2.90638
8,MediaTek,11008,2.447103
9,KIOXIA,10208,2.269261
10,Nvidia,10095,2.244141


In [33]:
tabla_json = 
tabla_json

Unnamed: 0,Vendedor,Ventas 2020,Participación (%)
1,Intel,70244,15.615399
2,Samsung Electronics,56197,12.49272
3,SK hynix,25271,5.6178
4,Micron Technology,22098,4.912435
5,Qualcomm,17906,3.980544
6,Broadcom,15695,3.489034
7,Texas Instruments,13074,2.90638
8,MediaTek,11008,2.447103
9,KIOXIA,10208,2.269261
10,Nvidia,10095,2.244141


### Exploración de datos

Debido a que los DataFrames representan tablas de datos cuentam con elementos que nos permite conocer la naturaleza de la información.

Por ejemplo si deseamos conocer el tamaño del DataFrame usamos:

`df.shape`

11

Si necesitamos conocer cuales son los tipos de datos que ha asignado Pandas a cada columna de datos podemos hacer uso de la propiedad:

`df.dtypes`

Por ejemplo veamos como fueron reconocidas las columnas de los dataframes `tabla_csv` y `tabla_json`:

In [5]:
# df csv

In [6]:
# df json

También podemos obtener una muestra de las primeras filas o las últimas filas del DataFrame usando las funciones:

```
df.head()
df.tail()
```

Por ejemplo podemos examinar las primeras 3 filas y las últimas 5 filas del dataframe `tabla_json`:

### Limpieza de datos

In [40]:
vendedores_sucio = pd.read_csv("vendedores-chips-sucio.csv", encoding="utf-8", index_col=0)
vendedores_sucio

Unnamed: 0,Vendedor,Ventas 2020,Participación (%)
1,Intel,70244.0,
2,Samsung Electronics,56197.0,
3,SK hynix,25271.0,
4,Micron Technology,,
5,Qualcomm,17906.0,
6,Broadcom,15695.0,
7,Texas Instruments,,
8,MediaTek,11008.0,
9,,,
10,Nvidia,10095.0,


Lo primero es identificar las posiciones donde tenemos datos incompletos o nulos y para eso usamos una combinación de funciones:

`df.isna()` que nos permite marcar con un valor **True** en la celda donde exista un valor nulo
`df.isna().sum()` y encadenando la función `sum()` podemos determinar el número de valores nulos por columna.

Veamos el resultado para el dataframe `vendedores_sucio`:

In [None]:
# sólo isna()

In [7]:
# encadenando sum()

Ahora toca decidir que hacer con los valores nulos encontrados, por ejemplo para el caso de las filas que contienen algún nulo nos interesa eliminar las filas ya que carecen de significado y para el caso de las columnas toda la columna de Participación se puede eliminar ya que todos los valores son nulos.

Para eliminar valores nulos Pandas cuenta con la función:

`df.dropna(axis=0, how="any")`

Donde `axis` con valor 0 indica que procesará los datos por indices, o sea por filas y si es un valor de 1 lo procesará por columnas y `how` con el valor de `any` indica elimina cualquier fila o columna donde exista algún valor nulo, o sea, con que exista un valor nulo la fila o columna serán eliminados, si deseamos eliminar sólo las filas o columnas donde todos los valores son nulso, entoces se debe usar el valor `all`

Eliminemos primero la columna de **Participación** ya que todos los valores son nulos usando la forma:

`df.dropna(axis=1, how="all")`

Y asignamos el resultado a la variable `vendedores_sucio_1`:

In [45]:
vendedores_sucio_1 = 
vendedores_sucio_1

Unnamed: 0,Vendedor,Ventas 2020
1,Intel,70244.0
2,Samsung Electronics,56197.0
3,SK hynix,25271.0
4,Micron Technology,
5,Qualcomm,17906.0
6,Broadcom,15695.0
7,Texas Instruments,
8,MediaTek,11008.0
9,,
10,Nvidia,10095.0


Ahora vamos a eliminar las filas donde existe al menos un valor nulo usando alguna de las siguientes formas:

`df.dropna(axis=0, how="any")`

o

`df.dropna()`


In [46]:
vendedores_limpio = 
vendedores_limpio

Unnamed: 0,Vendedor,Ventas 2020
1,Intel,70244.0
2,Samsung Electronics,56197.0
3,SK hynix,25271.0
5,Qualcomm,17906.0
6,Broadcom,15695.0
8,MediaTek,11008.0
10,Nvidia,10095.0
11,Others (outside top 10),198042.0


Finalmente guarda el dataframe en el archivo `vendedores-chips-limpio.csv` para su posterior uso:

In [47]:
vendedores_limpio.to_csv("vendedores-chips-limpio.csv", encoding="utf-8")