# **CARGA DE LA BASE DE DATOS**

In [1]:
# Importamos las paqueterías que ocuparemos

import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

In [5]:
# Código para omitir los warnings

import warnings
warnings.filterwarnings('ignore')

In [4]:
# Cargamos la base de datos desde Drive

# ID del archivo de Google Drive
file_id = "1Sc3L35SbDqhRXM8yqZKxAtk1gZ2YZUxM"

# Construir la URL de descarga directa
url = f"https://drive.google.com/uc?export=download&id={file_id}"

# Cargar el archivo CSV desde Google Drive
df = pd.read_csv(url)

# Visualizar los primeros 5 registros
df.head()

Unnamed: 0,Country,Country Code,Year from,Year to,Age from,Age to,Gender,Salivary Gland Cancer,Tongue Cancer,Lip Cancer,Mouth Cancer,Source
0,Algeria,DZ,1990,1993,,,female,0.1,0.0,0.1,0.2,Parkin D.M. et al. Cancer Incidence in Five Co...
1,Algeria,DZ,1990,1993,,,male,2.3,0.2,0.6,0.5,Parkin D.M. et al. Cancer Incidence in Five Co...
2,Algeria,DZ,1990,1993,5.0,9.0,female,0.0,0.0,0.0,0.0,Parkin D.M. et al. Cancer Incidence in Five Co...
3,Algeria,DZ,1990,1993,5.0,9.0,male,0.0,0.0,0.3,0.0,Parkin D.M. et al. Cancer Incidence in Five Co...
4,Algeria,DZ,1990,1993,15.0,19.0,female,0.0,0.0,0.0,0.0,Parkin D.M. et al. Cancer Incidence in Five Co...


In [6]:
# Eliminamos la columna "Source" ya que no aporta información a nuestro análisis

df.drop(columns=['Source'], inplace=True)

# **ANÁLISIS EXPLORATORIO**

In [7]:
# Modificamos los nombres de las columnas

new_column_names = {
    'Country': 'country',
    'Country Code': 'country_code',
    'Year from': 'year_from',
    'Year to': 'year_to',
    'Age from': 'age_from',
    'Age to': 'age_to',
    'Gender': 'gender',
    'Salivary Gland Cancer': 'salivary_gland_cancer(per100000)',
    'Tongue Cancer': 'tongue_cancer(per100000)',
    'Lip Cancer': 'lip_cancer(per100000)',
    'Mouth Cancer': 'mouth_cancer(per100000)'
}
df = df.rename(columns=new_column_names)
df.head()

Unnamed: 0,country,country_code,year_from,year_to,age_from,age_to,gender,salivary_gland_cancer(per100000),tongue_cancer(per100000),lip_cancer(per100000),mouth_cancer(per100000)
0,Algeria,DZ,1990,1993,,,female,0.1,0.0,0.1,0.2
1,Algeria,DZ,1990,1993,,,male,2.3,0.2,0.6,0.5
2,Algeria,DZ,1990,1993,5.0,9.0,female,0.0,0.0,0.0,0.0
3,Algeria,DZ,1990,1993,5.0,9.0,male,0.0,0.0,0.3,0.0
4,Algeria,DZ,1990,1993,15.0,19.0,female,0.0,0.0,0.0,0.0


In [7]:
# Imprimimos las dimensiones de la base

df.shape

(1733, 11)

In [8]:
# Imprimimos la información cualitativa de las variables

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1733 entries, 0 to 1732
Data columns (total 11 columns):
 #   Column                            Non-Null Count  Dtype  
---  ------                            --------------  -----  
 0   country                           1733 non-null   object 
 1   country_code                      1733 non-null   object 
 2   year_from                         1733 non-null   int64  
 3   year_to                           1733 non-null   int64  
 4   age_from                          1611 non-null   float64
 5   age_to                            1497 non-null   float64
 6   gender                            1733 non-null   object 
 7   salivary_gland_cancer(per100000)  1733 non-null   float64
 8   tongue_cancer(per100000)          1733 non-null   float64
 9   lip_cancer(per100000)             1733 non-null   float64
 10  mouth_cancer(per100000)           1733 non-null   float64
dtypes: float64(6), int64(2), object(3)
memory usage: 149.1+ KB


**Tarea**

Este codigo es para ver los valores  unicos y su frecuencia en columnas, llevar a cabo el mismo procedimiento para cada columna (si se puede hacer en una sola funcion mejor C: ) **REALIZADO**

In [34]:
def print_unique_values(df, column_name):
    unique_values = df[column_name].value_counts().to_frame()
    unique_values = unique_values.rename(columns = {"count" : "Conteo"})
    print(f'== Valores únicos de la variable "{column_name}" ==\n')
    print(f'{unique_values}\n')

print_unique_values(df, "country")
print_unique_values(df, "year_to")
print_unique_values(df, "year_from")
print_unique_values(df, "age_to")
print_unique_values(df, "age_from")

== Valores únicos de la variable "country" ==

                          Conteo
country                         
United States of America      75
United Kingdom                69
India                         63
Germany                       62
Kuwait                        51
New Zealand                   38
Canada                        38
Czech Republic                38
Singapore                     38
Belarus                       36
Japan                         36
Israel                        36
Croatia                       36
Denmark                       36
Philippines                   36
Netherlands                   36
Finland                       36
Hong Kong                     34
Latvia                        34
China                         34
Sweden                        34
Slovakia                      32
Spain                         32
Costa Rica                    32
Colombia                      32
Norway                        32
Peru                         

# **LIMPIEZA**

In [36]:
# Verificamos la existencia de valores nulos de cada variable

df.isnull().sum()

Unnamed: 0,0
country,0
country_code,0
year_from,0
year_to,0
age_from,122
age_to,236
gender,0
salivary_gland_cancer(per100000),0
tongue_cancer(per100000),0
lip_cancer(per100000),0


In [37]:
# Para imputar los valores nulos de la edad, se revisa si existe una diferencia por país en cuanto a las edades

df['age_from'].groupby(df['country']).mean() #Se pensaría que Yugoslavia es el país con valores nulos en las edades

Unnamed: 0_level_0,age_from
country,Unnamed: 1_level_1
Algeria,37.222222
Argentina,55.833333
Australia,52.5
Austria,52.5
Belarus,45.0
Brazil,52.5
Canada,42.5
China,46.875
Colombia,49.333333
Costa Rica,39.666667


In [49]:
# Se revisa si en efecto el único país con valores nulos es Yugoslavia

df[df['age_from'].isnull()]["country"].value_counts()

Unnamed: 0_level_0,count
country,Unnamed: 1_level_1
Singapore,8
Kuwait,4
Israel,4
New Zealand,4
Germany,4
Zimbabwe,4
United Kingdom,4
United States of America,4
Uganda,2
Peru,2


In [53]:
df[df['country'] == "Singapore"]['age_from'].mean()

45.0

In [58]:
# Para imputar los valores nulos de la edad, se revisa si además de existir una diferencia por país, también existe por género.

df['age_from'].groupby([df['country'],df['gender']]).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,age_from
country,gender,Unnamed: 2_level_1
Algeria,female,37.222222
Algeria,male,37.222222
Argentina,female,55.833333
Argentina,male,55.833333
Australia,female,52.500000
...,...,...
Viet Nam,male,37.500000
Yugoslavia,female,
Yugoslavia,male,
Zimbabwe,female,51.666667


**NOTA:** Imputamos con el promedio general pero se debería utilizar el promedio por país ya que la edad cambia de acuerdo al país como lo observamos en la  celda 37.

In [None]:
# Imputamos los valores nulos de las edades usando el promedio

df_mean = df.copy()
df_mean['age_from'].fillna(df_mean['age_from'].mean(), inplace=True)
df_mean['age_to'].fillna(df_mean['age_to'].mean(), inplace=True)
df_mean.isnull().sum() #aqui es para verificar que ya no hay NaNs

Unnamed: 0,0
country,0
country_code,0
year_from,0
year_to,0
age_from,0
age_to,0
gender,0
salivary_gland_cancer(per100000),0
tongue_cancer(per100000),0
lip_cancer(per100000),0


In [60]:
print(df[df['country'] == "Viet Nam"]['age_from'].mean()) #Promedio de Vietnam
print(df['age_from'].mean()) #Promedio global

37.5
46.90254500310366


In [None]:
# Imputamos los valores nulos de las edades usando el mediana

df_median = df.copy()
df_median['age_from'].fillna(df_median['age_from'].median(), inplace=True)
df_median['age_to'].fillna(df_median['age_to'].median(), inplace=True)
df_median.isnull().sum() #aqui es para verificar que ya no hay NaNs

Unnamed: 0,0
country,0
country_code,0
year_from,0
year_to,0
age_from,0
age_to,0
gender,0
salivary_gland_cancer(per100000),0
tongue_cancer(per100000),0
lip_cancer(per100000),0


**Tarea**

*   agrupar por pais y determinar el promedio de cada categoria en una sola celda




In [11]:
# Imprimir los promedios globales

print(f"Promedio global salivary_gland_cancer = {df['salivary_gland_cancer(per100000)'].mean():.4f}")
print(f"Promedio global tongue_cancer = {df['tongue_cancer(per100000)'].mean():.4f}")
print(f"Promedio global lip_cancer = {df['lip_cancer(per100000)'].mean():.4f}")
print(f"Promedio global mouth_cancer = {df['mouth_cancer(per100000)'].mean():.4f}")

Promedio global salivary_gland_cancer = 1.5499
Promedio global tongue_cancer = 3.4564
Promedio global lip_cancer = 3.4852
Promedio global mouth_cancer = 4.5282


In [22]:
# Imprimir los promedios globales (FORMATO OPCIONAL)

print(f'== Promedios globales ==\n')
print(f'{("Tipo de cáncer"):25}   Promedio ()')
print(f'---------------------------------------')
print(f'{("Glándula salival"):25} | {df["salivary_gland_cancer(per100000)"].mean():.4f}')
print(f'{("Lengua"):25} | {df["tongue_cancer(per100000)"].mean():.4f}')
print(f'{("Labio"):25} | {df["lip_cancer(per100000)"].mean():.4f}')
print(f'{("Boca"):25} | {df["mouth_cancer(per100000)"].mean():.4f}')

== Promedios globales ==

Tipo de cáncer              Promedio
---------------------------------------
Glándula salival          | 1.5499
Lengua                    | 3.4564
Labio                     | 3.4852
Boca                      | 4.5282


In [35]:
"""# prompt: análisis exploratorio data frame

import pandas as pd
import matplotlib.pyplot as plt
# Información general del DataFrame
df.info()

# Estadísticas descriptivas de las variables numéricas
df.describe()

# Conteo de valores faltantes por columna
df.isnull().sum()

# Análisis de la distribución de las variables
for column in df.columns:
  if pd.api.types.is_numeric_dtype(df[column]):
    plt.figure()
    sns.histplot(df[column], kde=True)
    plt.title(f'Distribución de {column}')
    plt.show()
  else:
    plt.figure()
    sns.countplot(x=column, data=df)
    plt.title(f'Conteo de valores de {column}')
    plt.xticks(rotation=45, ha='right')
    plt.show()


# Correlación entre las variables
correlation_matrix = df.corr()
plt.figure(figsize=(12, 10))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm')
plt.title('Matriz de correlación')
plt.show()

# Análisis de la relación entre dos variables específicas (ejemplo: 'radius_mean' y 'area_mean')
plt.figure()
sns.scatterplot(x='radius_mean', y='area_mean', data=df)
plt.title('Relación entre radius_mean y area_mean')
plt.show()

# Puedes agregar más análisis según tus necesidades, como:
# - Boxplots para identificar outliers
# - Análisis de la distribución de las variables por grupos (ej. tipo de cáncer)
# - Gráficos de violín para comparar la distribución de las variables entre grupos

"""

"# prompt: análisis exploratorio data frame\n\nimport pandas as pd\nimport matplotlib.pyplot as plt\n# Información general del DataFrame\ndf.info()\n\n# Estadísticas descriptivas de las variables numéricas\ndf.describe()\n\n# Conteo de valores faltantes por columna\ndf.isnull().sum()\n\n# Análisis de la distribución de las variables\nfor column in df.columns:\n  if pd.api.types.is_numeric_dtype(df[column]):\n    plt.figure()\n    sns.histplot(df[column], kde=True)\n    plt.title(f'Distribución de {column}')\n    plt.show()\n  else:\n    plt.figure()\n    sns.countplot(x=column, data=df)\n    plt.title(f'Conteo de valores de {column}')\n    plt.xticks(rotation=45, ha='right')\n    plt.show()\n\n\n# Correlación entre las variables\ncorrelation_matrix = df.corr()\nplt.figure(figsize=(12, 10))\nsns.heatmap(correlation_matrix, annot=True, cmap='coolwarm')\nplt.title('Matriz de correlación')\nplt.show()\n\n# Análisis de la relación entre dos variables específicas (ejemplo: 'radius_mean' y 'a