# Analizando datos con Pandas

Pandas es una biblioteca popular en Python para la manipulación y análisis de datos. 

**Tenemos que tener en cuenta que estamos trabajando con una base de datos, en mi caso en la ruta BBDD/expanded**

La base de datos que usamos en este proyecto es sobre hongos y sus diferentes cualidades.

A continuación importaremos la biblioteca, que previamente descargamos en nuestra consola de preferencia con el comando *'pip install pandas'* a nuestro espacio de trabajo. 

Luego leeremos nuestro archivo con pandas con *'pd.read_csv(ruta/del/archivo)'*

In [2]:
# Importar la biblioteca:
import pandas as pd

# Leer el archivo de nuestra tabla bidimensional
data = pd.read_csv('BBDD/expanded', header=None)

A continuacion creamos una nueva fila para remplazar la primera, ya que nuestro archivo de datos no tiene un head (primera fila), para poder identificar mejor las categorias 

In [3]:
# Categorias de head
data_categories = ['cap-shape', 'cap-surface', 'cap-color', 'bruises', 'odor', 'gill-attachment', 'gill-spacing', 'gill-size',
                   'gill-color', 'stalk-shape', 'stalk-root', 'stalk-surface-above-ring', 'stalk-surface-below-ring',
                   'stalk-color-above-ring', 'stalk-color-below-ring', 'veil-type', 'veil-color', 'ring-number', 'ring-type',
                   'spore-print-color', 'population', 'habitat', 'extra-column']


# Agregar categorias a los datos 
data.columns = data_categories

### Empezando el análisis 

Mostraremos nuestros datos por pantalla para hacer la primera visualización

In [4]:
# Imprimiendo datos
print(data)

                                              cap-shape cap-surface cap-color  \
0                                                EDIBLE      CONVEX    SMOOTH   
1                                                EDIBLE      CONVEX    SMOOTH   
2                                                EDIBLE      CONVEX    SMOOTH   
3                                                EDIBLE      CONVEX    SMOOTH   
4                                                EDIBLE      CONVEX    SMOOTH   
...                                                 ...         ...       ...   
8412                                             EDIBLE     KNOBBED    SMOOTH   
8413                                             EDIBLE     KNOBBED    SMOOTH   
8414                                             EDIBLE     KNOBBED    SMOOTH   
8415                                             EDIBLE     KNOBBED    SMOOTH   
8416  ----------------------------------------------...         NaN       NaN   

     bruises     odor gill-

Con la impresion anterior de datos, podemos observar que nuestra tabla cuenta con 23 columnas y 8417 filas. Ademas podemos observar que la columna numero 10, 11, 12 no existen y ultima fila tiene solo datos NaN para determinar el fin de los datos.



Ahora mostraremos las ultimas 15 filas con el parametro *'data.tail(15)'* para comprobrar que no hayan mas datos NaN

In [5]:
# Imprimiendo las ultimas 15 filas de data. 
print(data.tail(15))

                                              cap-shape cap-surface cap-color  \
8402                                             EDIBLE     KNOBBED    SMOOTH   
8403                                             EDIBLE     KNOBBED    SMOOTH   
8404                                             EDIBLE     KNOBBED    SMOOTH   
8405                                             EDIBLE     KNOBBED    SMOOTH   
8406                                             EDIBLE     KNOBBED    SMOOTH   
8407                                             EDIBLE     KNOBBED    SMOOTH   
8408                                             EDIBLE     KNOBBED    SMOOTH   
8409                                             EDIBLE     KNOBBED    SMOOTH   
8410                                             EDIBLE     KNOBBED    SMOOTH   
8411                                             EDIBLE     KNOBBED    SMOOTH   
8412                                             EDIBLE     KNOBBED    SMOOTH   
8413                        

Con la impresion anterior de datos, podemos ver que la ultima fila y ninguna mas tiene datos NaN. Ademas las columnas 10, 11 y 12 aun no se leen. 

Continuando comprobaremos que este error no se repita en las primeras filas imprimiendo las primeras 15 filas de data con la linea de codigo *data.head(15)* 

In [6]:
# Imprimiendo las primeras 15 filas de data. 
print(data.head(15))

   cap-shape cap-surface cap-color bruises     odor gill-attachment  \
0     EDIBLE      CONVEX    SMOOTH   WHITE  BRUISES          ALMOND   
1     EDIBLE      CONVEX    SMOOTH   WHITE  BRUISES          ALMOND   
2     EDIBLE      CONVEX    SMOOTH   WHITE  BRUISES          ALMOND   
3     EDIBLE      CONVEX    SMOOTH   WHITE  BRUISES          ALMOND   
4     EDIBLE      CONVEX    SMOOTH   WHITE  BRUISES          ALMOND   
5     EDIBLE      CONVEX    SMOOTH   WHITE  BRUISES          ALMOND   
6     EDIBLE      CONVEX    SMOOTH   WHITE  BRUISES           ANISE   
7     EDIBLE      CONVEX    SMOOTH   WHITE  BRUISES           ANISE   
8     EDIBLE      CONVEX    SMOOTH   WHITE  BRUISES           ANISE   
9     EDIBLE      CONVEX    SMOOTH   WHITE  BRUISES           ANISE   
10    EDIBLE      CONVEX    SMOOTH   WHITE  BRUISES           ANISE   
11    EDIBLE      CONVEX    SMOOTH   WHITE  BRUISES           ANISE   
12    EDIBLE      CONVEX    SMOOTH  YELLOW  BRUISES          ALMOND   
13    

Pudimos comprobar que no hay mas datos NaN en las primeras filas. 

Ahora usaremos el método *describe()* en Pandas genera estadísticas descriptivas para todas las columnas numéricas del DataFrame, como la cantidad de valores, la media, la desviación estándar, los valores mínimo y máximo, y los percentiles.
Sin embargo, en este caso, las columnas de nuestro Dataframe contiene datos categóricos en lugar de numéricos por lo que muestra algunas estadísticas útiles, como la cantidad de valores, el número de valores únicos, el valor más frecuente y su frecuencia, no proporcionará medidas como la media, desviación estándar o percentiles en este caso.

En resumen proporciona la cantidad de valores no nulos para cada columna (count), el número de valores únicos (unique), el valor más frecuente (top) y su frecuencia (freq).

In [7]:
# Aplicando metodo describe 
print(data.describe())

       cap-shape cap-surface cap-color bruises  odor gill-attachment  \
count       8417        8416      8416    8416  8416            8416   
unique         3           6         4      10     2               9   
top       EDIBLE      CONVEX     SCALY   BROWN    NO            NONE   
freq        4488        3796      3268    2320  5040            3808   

       gill-spacing gill-size gill-color stalk-shape  ...  \
count          8416      8416       8416        8416  ...   
unique            2         2          2          12  ...   
top            FREE     CLOSE      BROAD        BUFF  ...   
freq           8200      6824       5880        1728  ...   

       stalk-color-above-ring stalk-color-below-ring veil-type veil-color  \
count                    8416                   8416      8416       8416   
unique                      4                      9         9          1   
top                    SMOOTH                  WHITE     WHITE    PARTIAL   
freq                     

- La cantidad de valores no nulos para cada columna (count) es igual al total de filas, lo que indica que no hay valores faltantes en el DataFrame para esas columnas en particular. Esto se confirma al ver que el conteo coincide con el número total de filas, que es 8416 para todas las columnas.

- El número de valores únicos (unique) muestra la cantidad de categorías o clases distintas presentes en cada columna. Por ejemplo, en la columna "cap-shape" hay 3 valores únicos, en la columna "cap-surface" hay 6 valores únicos, y así sucesivamente para el resto de las columnas. Esto nos proporciona información sobre la diversidad de opciones o características en cada columna categórica.

- El valor más frecuente (top) representa el valor que aparece con mayor frecuencia en cada columna. Por ejemplo, en la columna "cap-shape", el valor más frecuente es "EDIBLE". En la columna "cap-surface", el valor más frecuente es "CONVEX". Esto nos muestra la categoría o clase dominante en cada columna.

- La frecuencia (freq) indica la cantidad de veces que aparece el valor más frecuente en cada columna. Por ejemplo, en la columna "cap-shape", el valor "EDIBLE" aparece 4488 veces, lo que significa que es el valor más común en esa columna.

- Estos datos nos brindan una visión general de la distribución y características de los datos en cada columna categórica del DataFrame. Nos ayudan a comprender la diversidad de opciones, las categorías más comunes y la distribución de los valores en cada columna.

A continuación usamos el método info() que muestra un resumen conciso del Dataframe, 
incluyendo información sobre la cantidad de filas y columnas, el tipo
de datos de cada columna y la cantidad de valores no nulos.

In [8]:
print(data.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8417 entries, 0 to 8416
Data columns (total 23 columns):
 #   Column                    Non-Null Count  Dtype 
---  ------                    --------------  ----- 
 0   cap-shape                 8417 non-null   object
 1   cap-surface               8416 non-null   object
 2   cap-color                 8416 non-null   object
 3   bruises                   8416 non-null   object
 4   odor                      8416 non-null   object
 5   gill-attachment           8416 non-null   object
 6   gill-spacing              8416 non-null   object
 7   gill-size                 8416 non-null   object
 8   gill-color                8416 non-null   object
 9   stalk-shape               8416 non-null   object
 10  stalk-root                8416 non-null   object
 11  stalk-surface-above-ring  8416 non-null   object
 12  stalk-surface-below-ring  8416 non-null   object
 13  stalk-color-above-ring    8416 non-null   object
 14  stalk-color-below-ring  

Del metodo anterior los aspectos clave que se pueden deducir de la salida:

- El DataFrame tiene 8417 filas en total.
- Hay un total de 23 columnas en el DataFrame, con diferentes nombres de columna. Estos nombres de columna no se incluyen en la salida proporcionada, pero se puede inferir por los nombres de las variables mencionadas en la salida.
- Cada columna tiene una cuenta de valores no nulos diferente, lo que indica que puede haber valores faltantes en el DataFrame.
- El tipo de datos de todas las columnas es 'object', lo que indica que todas las columnas se consideran como datos de tipo de objeto en lugar de datos numéricos o categóricos específicos.
- La salida también muestra el uso de memoria estimado para el DataFrame, que es de aproximadamente 1.5 MB.

Ahora realizaremos un análisis para cada columna en la lista *data_categories*. Para cada columna, se imprime el conteo de valores únicos presentes en esa columna del DataFrame data. Además, se añaden dos saltos de línea entre los conteos de cada columna, asi podremos observar la cantidad de datos en cada columna. A continuación, se muestra cómo se vería el resultado de este análisis para cada columna

In [9]:
# Itera sobre cada elemento (columna) en la lista data_categories
for column_name in data_categories:
    
    # Imprime el conteo de valores únicos en la columna correspondiente del DataFrame data con dos saltos de linea
    print(data[column_name].value_counts(), "\n \n")

EDIBLE                                                                    4488
POISONOUS                                                                 3928
----------------------------------------------------------------------       1
Name: cap-shape, dtype: int64 
 

CONVEX     3796
FLAT       3292
KNOBBED     840
BELL        452
SUNKEN       32
CONICAL       4
Name: cap-surface, dtype: int64 
 

SCALY      3268
SMOOTH     2684
FIBROUS    2460
GROOVES       4
Name: cap-color, dtype: int64 
 

BROWN       2320
GRAY        2096
RED         1500
YELLOW      1072
WHITE       1040
BUFF         168
PINK         144
CINNAMON      44
PURPLE        16
GREEN         16
Name: bruises, dtype: int64 
 

NO         5040
BRUISES    3376
Name: odor, dtype: int64 
 

NONE        3808
FOUL        2160
FISHY        576
SPICY        576
ALMOND       400
ANISE        400
PUNGENT      256
CREOSOTE     192
MUSTY         48
Name: gill-attachment, dtype: int64 
 

FREE        8200
ATTACHED     216
Name: gil

Ahora simplemente vamos a rellenar con el numero 0 los valores nulos

In [10]:
# Rellenar los valores nulos con un valor específico (por ejemplo, 0)
data_filled = data.fillna(0)

# Imprimir el DataFrame después de rellenar los valores nulos
print(data_filled)

                                              cap-shape cap-surface cap-color  \
0                                                EDIBLE      CONVEX    SMOOTH   
1                                                EDIBLE      CONVEX    SMOOTH   
2                                                EDIBLE      CONVEX    SMOOTH   
3                                                EDIBLE      CONVEX    SMOOTH   
4                                                EDIBLE      CONVEX    SMOOTH   
...                                                 ...         ...       ...   
8412                                             EDIBLE     KNOBBED    SMOOTH   
8413                                             EDIBLE     KNOBBED    SMOOTH   
8414                                             EDIBLE     KNOBBED    SMOOTH   
8415                                             EDIBLE     KNOBBED    SMOOTH   
8416  ----------------------------------------------...           0         0   

     bruises     odor gill-